El modelo Normal para variables continuas \(y_i \in \mathbb{R}\), con \(i = 1, \dots, n\), se define como:
\[ \begin{aligned} y_i \mid \theta, \sigma^2 &\overset{\text{iid}}{\sim} \textsf{N}(\theta, \sigma^2) \\ (\theta, \sigma^2) &\sim p(\theta, \sigma^2) \end{aligned} \] donde \(\boldsymbol{\theta} = (\theta, \sigma^2) \in \Theta = \mathbb{R} \times \mathbb{R}^+\).
(Ejercicio.) Si \(y_i\mid\theta,\sigma^2\stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2)\), para \(i=1,\ldots,n\), entonces la distribución muestral conjunta de las observaciones es: \[ p\left(\boldsymbol{y} \mid \theta, \sigma^{2}\right) = \left(2 \pi \sigma^{2}\right)^{-n / 2} \exp { \left\{-\frac{1}{2} \sum_{i=1}^{n}\left(\frac{y_{i}-\theta}{\sigma}\right)^{2}\right\} }\,, \] donde \(\boldsymbol{y}=(y_1,\ldots,y_n)\).
(Ejercicio.) El núcleo de esta distribución se puede escribir como: \[ \sum_{i=1}^n\left(\frac{y_{i}-\theta}{\sigma}\right)^{2}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n} y_{i}^{2}-2 \frac{\theta}{\sigma^{2}} \sum_{i=1}^{n} y_{i}+n \frac{\theta^{2}}{\sigma^{2}}\,, \] lo cual sugiere que \[ \left(\sum_{i=1}^{n} y_{i}, \sum_{i=1}^{n} y_{i}^{2}\right) \] es un estadístico suficiente para \((\theta,\sigma^2)\).
(Ejercicio.) La media muestral y la varianza muestral \((\bar{y},s^2)\), \[ \bar{y} = \frac{1}{n}\sum_{i=1}^n y_i\qquad\text{y}\qquad s^2 =\frac{1}{n-1}\left(\sum_{i=1}^n y_i^2 - n\bar{y}^2\right)\,, \] también constituye un estadístico suficiente para \((\theta,\sigma^2)\), dado que \[ \sum_{i=1}^n(y_i - \theta)^2 = (n-1)s^2 + n(\bar{y} - \theta)^2\,. \]
El modelo Normal-Gamma Inversa-Normal es \[ \begin{align*} y_i\mid\theta,\sigma^2 &\stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2) \\ \theta \mid \sigma^{2} & \sim \textsf{N}\left(\mu_{0}, \tfrac{\sigma^{2}}{\kappa_{0}}\right) \\ \sigma^{2} & \sim \textsf{GI}\left(\tfrac{\nu_{0}}{2}, \tfrac{\nu_{0}\,\sigma_{0}^{2}}{2}\right) \end{align*} \] donde \(\mu_0\), \(\kappa_0\), \(\nu_0\) y \(\sigma^2_0\) son los hiperparámetros del modelo. Esta parametrización es conveniente para establecer una interpretación práctica de los hiperparámetros.
La variable aleatoria \(X\) tiene distribución Gamma Inversa con parámetros \(\alpha,\beta > 0\), i.e., \(X\mid\alpha,\beta\sim\textsf{GI}(\alpha,\beta)\), si su función de densidad de probabilidad es \[ p(x\mid\alpha,\beta) = \frac{\beta^\alpha}{\Gamma(\alpha)}\,x^{-(\alpha+1)}\,e^{-\beta/x}\,,\quad x>0\,. \]
(Ejercicio.) Si \(X\sim\textsf{Gamma}(\alpha,\beta)\), entonces \(\tfrac{1}{X}\sim\textsf{GI}(\alpha,\beta)\).
Bajo el modelo Normal-Gamma Inversa-Normal se tiene que la distribución posterior de \(\boldsymbol{\theta}\) es \[ p(\theta,\sigma^2\mid \boldsymbol{y}) = p(\theta\mid \sigma^2, \boldsymbol{y})\,p(\sigma^2\mid \boldsymbol{y}) \] donde:
Bajo esta parametrización de la distribución previa, se puede interpretar que:
(Ejercicio.) Las distribuciones marginales posteriores de \(\theta\) y \(\sigma^2\) son respectivamente: \[ \theta\mid \boldsymbol{y} \sim \textsf{t}_{\nu_n}\left( \mu_n,\tfrac{\sigma^2_n}{\kappa_n} \right) \qquad\text{y}\qquad \sigma^2\mid \boldsymbol{y} \sim \textsf{GI}\left(\tfrac{\nu_n}{2},\tfrac{\nu_n\,\sigma^2_n}{2}\right)\,, \] donde \(\textsf{t}_\nu(\mu,\sigma^2)\) es la distribución \(\textsf{t}\) con \(\nu\) grados de libertad, media \(\mu\), y varianza \(\tfrac{\nu}{\nu-2}\,\sigma^2\).
La variable aleatoria \(X\) tiene distribución t con \(\nu\in\mathbb{N}_0\) (grados de libertad), \(\mu\in\mathbb{R}\) (localización), y \(\sigma\in\mathbb{R}^+\) (escala), i.e., \(X\mid\nu,\mu,\sigma^2\sim\textsf{t}_\nu(\mu,\sigma^2)\), si su función de densidad de probabilidad es \[ p(x\mid\nu,\mu,\sigma^2) = \frac{\Gamma((\nu+1)/2)}{\Gamma(\nu/2)\sqrt{\nu\pi\sigma^2}}\,\left( 1 + \tfrac{1}{\nu\sigma^2}\,( x-\mu )^2 \right)^{-(\nu + 1 )/2} \,,\quad x>0\,. \]
(Ejercicio.) Si \(X\sim\textsf{t}_\nu(\mu,\sigma^2)\), entonces \(\tfrac{X-\mu}{\sigma}\sim\textsf{t}_\nu\).
dt0 <- function(x, nu, mu, sigma2, log = FALSE) {
# Constante de normalización
log_const <- lgamma((nu + 1) / 2) - lgamma(nu / 2) - 0.5 * log(nu * pi * sigma2)
# Término dependiente de x
log_kernel <- -((nu + 1) / 2) * log(1 + (1 / (nu * sigma2)) * (x - mu)^2)
# Evaluación de la densidad en escala logarítmica
log_density <- log_const + log_kernel
# Retornar en escala logarítmica o exponencial
if (log) return(log_density)
return(exp(log_density))
}
(Ejercicio.) La distribución predictiva posterior de una observación futura \(y^*\in\mathbb{R}\) es \[ y^*\mid\boldsymbol{y} \sim \textsf{t}_{\nu_n}\left( \mu_n,\tfrac{\kappa_n+1}{\kappa_n}\,\sigma^2_n \right) \]
La función \(p(\theta,\log\sigma^2)\propto 1\) se denomina distribución previa impropia.
Esta “distribución” es equivalente a \(p(\theta,\sigma^2)\propto 1/\sigma^2\) y se llama impropia porque no corresponde a una función de densidad de probabilidad.
Lo esencial es que la distribución posterior obtenida al utilizar una distribución previa impropia sí sea una distribución de probabilidad propia.
Una previa impropia permite realizar análisis sin imponer una información previa específica, lo que refleja una postura máxima incertidumbre (estado de información neutral que minimiza la subjetividad).
(Ejercicio.) La distribución posterior satisface que \[ \theta\mid\sigma^2,\boldsymbol{y} \sim\textsf{N}\left(\bar{y},\tfrac{\sigma^2}{n}\right) \qquad\text{y}\qquad \sigma^2\mid\boldsymbol{y} \sim \textsf{GI}\left(\tfrac{n-1}{2},\tfrac{n-1}{2}s^2\right)\,. \]
(Ejercicio.) La distribución marginal posterior de \(\theta\) es \(\theta\mid\boldsymbol{y}\sim\textsf{t}_{n-1}\left(\bar{y},\tfrac{s^2}{n}\right)\), de donde \[ \frac{\theta-\bar{y}}{s/\sqrt{n}}\,\Big|\,\boldsymbol{y} \sim\textsf{t}_{n-1}\,. \]
Un estimador puntual \(\hat{\theta}\) de un parámetro desconocido \(\theta\) es una función que aplica \(y_1,\ldots,y_n\) a un único elemento del espacio de parámetros \(\Theta\).
Las propiedades muestrales de \(\hat{\theta}\) se refiere al comportamiento de \(\hat{\theta}\) bajo una sucesión infinita de procesos de observación hipotéticos.
Para el modelo Normal, sea \(\hat{\theta}_{\text{u}} = \bar{y}\) el estimador de máxima verosimilitud de \(\theta\), y sea \(\hat{\theta}_{\text{b}} = (1-\omega)\mu_0 + \omega \bar{y}\) el estimador Bayesiano de \(\theta\) basado en la media posterior bajo la previa Normal-Gamma Inversa.
Si el valor verdadero de \(\theta\) es \(\theta_0\), entonces \[ \textsf{E}(\hat{\theta}_{\text{u}}) = \theta_0 \qquad\text{y}\qquad \textsf{E}(\hat{\theta}_{\text{b}}) = (1-\omega)\mu_0 + \omega \theta_0\,. \] Por lo tanto, \(\hat{\theta}_{\text{u}}\) es un estimador insesgado de \(\theta\), y \(\hat{\theta}_{\text{b}}\) es un estimador sesgado de \(\theta\) a menos que \(\mu_0 = \theta_0\).
Para evaluar qué tan “cercano” se encuentra \(\hat{\theta}\) de \(\theta_0\), se acostumbra usar el error cuadrático medio (MSE; mean square error) de \(\hat{\theta}\), dado por \[ \textsf{MSE}(\hat{\theta}) = \textsf{E}((\hat{\theta} -\theta)^2) = \textsf{Var}(\hat{\theta}) + \textsf{Bias}^2(\hat{\theta})\,, \] donde \(\textsf{Bias}(\hat{\theta}) = \textsf{E}(\hat{\theta}) - \theta_0\) es el sesgo (bias) de \(\hat{\theta}\).
Ejercicio. En este caso, se tiene que \[ \textsf{MSE}(\hat{\theta}_{\text{u}}) = \frac{\sigma^2}{n} \qquad\text{y}\qquad \textsf{MSE}(\hat{\theta}_{\text{b}}) = \omega^2\,\frac{\sigma^2}{n} + (1-\omega)^2(\mu_0-\theta_0)^2\,, \] y además, \(\textsf{MSE}(\hat{\theta}_{\text{b}}) < \textsf{MSE}(\hat{\theta}_{\text{u}})\) siempre que \[ (\mu_0-\theta_0)^2 < \left(\tfrac{1}{n} + \tfrac{2}{\kappa_0}\right)\sigma^2\,. \] Si se sabe un poco sobre la población, se pueden encontrar valores de \(\mu_0\) y \(\theta_0\) tales que se cumpla esta desigualdad, en cuyo caso es posible construir un estimador Bayesiano con menor distancia cuadrática promedio a la media de la población en comparación con la media muestral.
Para \(b=1,\ldots,B\):
Este procedimiento genera un conjunto de muestras independientes de la distribución posterior de la forma \[ (\theta^{(1)},(\sigma^2)^{(1)}),\ldots,(\theta^{(B)},(\sigma^2)^{(B)})\,, \] que se pueden utilizar para caracterizar cualquier aspecto de \(p(\theta,\sigma^2\mid \boldsymbol{y})\), \(p(\theta\mid \boldsymbol{y})\), y \(p(\sigma^2\mid \boldsymbol{y})\).
La base de datos contiene la información de una muestra aleatoria simple de los estudiantes que presentaron la Prueba Saber 11 en 2023-2.
La prueba de matemáticas está diseñada con una escala de 0 a 100 (sin decimales), un puntaje promedio de 50 y una desviación estándar de 10 puntos.
¿Existe suficiente evidencia para concluir que el puntaje promedio de Matemáticas de Bogotá es significativamente superior al puntaje promedio preestablecido por la prueba?
Los datos son públicos y están disponibles en este enlace.
# Cargar datos
dat <- read.csv("SB11_20232_muestra.txt", sep = ";", stringsAsFactors = FALSE)
# Dimensiones
dim(dat)
## [1] 5511 83
##
## AMAZONAS ANTIOQUIA ARAUCA ATLANTICO BOGOTÁ
## 8 758 34 342 776
## BOLIVAR BOYACA CALDAS CAQUETA CASANARE
## 275 173 78 42 53
## CAUCA CESAR CHOCO CORDOBA CUNDINAMARCA
## 126 149 55 218 389
## GUAINIA GUAVIARE HUILA LA GUAJIRA MAGDALENA
## 4 15 126 100 200
## META NARIÑO NORTE SANTANDER PUTUMAYO QUINDIO
## 122 145 147 38 45
## RISARALDA SAN ANDRES SANTANDER SUCRE TOLIMA
## 125 9 274 107 170
## VALLE VAUPES VICHADA
## 401 3 4
# Datos de Bogotá
y <- dat[dat$ESTU_COD_RESIDE_DEPTO == 11, "PUNT_MATEMATICAS"]
# Tamaño de muestra
(n <- length(y))
## [1] 776
## [1] 55.08247
## [1] 143.8487
## [1] 777
## [1] 777
## [1] 55.07593
## [1] 143.6403
# Número de simulaciones
B <- 10000
# Muestras de la distribución posterior
set.seed(1234)
sigma2 <- 1 / rgamma(B, shape = nun / 2, rate = nun * s2n / 2)
theta <- rnorm(B, mean = mun, sd = sqrt(sigma2 / kn))
Estimación | CV | L. Inf. 95% | L. Sup. 95% | |
---|---|---|---|---|
Media | 55.073 | 0.008 | 54.249 | 55.922 |
DE | 11.994 | 0.025 | 11.418 | 12.597 |
# Distribución predictiva posterior
set.seed(1234)
y_new <- rnorm(n = B, mean = theta, sd = sqrt(sigma2))
Estimación | CV | L. Inf. 95% | L. Sup. 95% | |
---|---|---|---|---|
y pred | 55.145 | 0.215 | 32.122 | 78.352 |
# Estadísticos observados
t_obs <- c(mean(y), sd(y))
# Inicializar matriz para almacenar estadísticas de prueba
t_mc <- matrix(NA, nrow = B, ncol = 2)
# Distribución predictiva posterior
set.seed(1234)
for (i in 1:B) {
# Datos simulados
y_rep <- rnorm(n = n, mean = theta[i], sd = sqrt(sigma2[i]))
# Estadísticos de prueba
t_mc[i, ] <- c(mean(y_rep), sd(y_rep))
}
# ppp
ppp_media <- round(mean(t_mc[ , 1] < t_obs[1]), 3)
ppp_sd <- round(mean(t_mc[ , 2] < t_obs[2]), 3)
Estimación | CV | L. Inf. 95% | L. Sup. 95% | |
---|---|---|---|---|
Bayesiana | 55.073 | 0.008 | 54.249 | 55.922 |
Frec. Asintótica | 55.082 | 0.008 | 54.239 | 55.926 |
Frec. Bootstrap Par. | 55.079 | 0.008 | 54.232 | 55.922 |
Frec. Bootstrap No Par. | 55.080 | 0.008 | 54.227 | 55.934 |
Estimación | CV | L. Inf. 95% | L. Sup. 95% | |
---|---|---|---|---|
Bayesiana | 37.916 | 0.162 | 25.757 | 49.948 |
Frec. Asintótico | 35.000 | 0.138 | 25.566 | 44.434 |
Frec. Bootstrap Par. | 34.943 | 0.137 | 25.602 | 44.239 |
Frec. Bootstrap No Par. | 34.966 | 0.120 | 27.250 | 42.500 |
Considere el modelo Normal \(x_i\mid\theta,\sigma^2 \overset{\text{iid}}{\sim}
\textsf{N}(\theta,\sigma^2)\), para \(i=1,\dots,n\), donde \(\theta\) es desconocido y \(\sigma^2\) es conocido. Además, suponga que
la distribución previa de \(\theta\)
está definida como una mezcla finita de distribuciones normales
conjugadas de la forma
\[
p(\theta) = \sum_{\ell=1}^K
\omega_\ell\,\phi(\theta\mid\mu_\ell,\tau^2),
\]
donde \(K\) es un entero positivo fijo
con \(K \geq 1\), y los coeficientes
\(\omega_1,\dots,\omega_K\) forman un
sistema de pesos que satisface \(\sum_{\ell=1}^K \omega_\ell = 1\) y \(0\leq w_\ell\leq 1\), para \(\ell=1,\dots,K\). Aquí, \(\phi(\theta\mid\mu,\tau^2)\) representa la
densidad de una distribución Normal con media \(\mu\) y varianza \(\tau^2\). Este tipo de distribución previa
permite representar estados de información previos multimodales sobre
\(\theta\).
Considere el modelo Normal Truncado \(x_i\mid\theta,\sigma^2 \overset{\text{iid}}{\sim} \textsf{N}_{(0,\infty)}(\theta,\sigma^2)\), para \(i=1,\dots,n\), donde \(\sigma^2=1\). Además, suponga que la distribución previa de \(\theta\) está dada por \(\theta\sim\textsf{N}(\mu,\tau^2)\).
Considere el modelo Normal dado por \(y_i\mid\theta,\sigma^2 \overset{\text{iid}}{\sim}
\textsf{N}(\theta,\sigma^2)\), con la distribución previa:
\[
\theta \sim \textsf{N}(\mu_0, \tau^2_0),
\qquad
\sigma^2 \sim
\textsf{GI}\left(\frac{\nu_0}{2},\frac{\nu_0\sigma^2_0}{2}\right),
\]
donde \(\mu_0\), \(\tau^2_0\), \(\nu_0\) y \(\sigma^2_0\) son los
hiperparámetros del modelo. Demuestre que:
Los archivos school1.dat
, school2.dat
y
school3.dat
contienen datos sobre el tiempo que los
estudiantes de tres colegios dedicaron a estudiar o hacer tareas durante
un período de exámenes.
Explore los datos mediante análisis gráfico y numérico.
Analice los datos de cada colegio por separado utilizando un modelo Normal con una distribución previa conjugada, donde los hiperparámetros son \(\mu_0 = 5\), \(\sigma_0^2 = 4\), \(\kappa_0 = 1\), y \(\nu_0 = 2\). Calcule lo siguiente:
Grafique la distribución posterior conjunta de \((\theta, \sigma^2)\) para cada
colegio.
Evalúe la bondad de ajuste del modelo en cada colegio utilizando como estadísticos de prueba la media y la desviación estándar.
En un estudio realizado por W. L. Grogan y W. W. Wirth (1981), se identificaron en las selvas de Brasil dos nuevas variedades de mosquitos picadores (midges). Una de ellas, denominada mosquito Apf, es portadora de una enfermedad que puede causar inflamación cerebral y discapacidades permanentes, aunque rara vez es letal. En contraste, la otra variedad, denominada mosquito Af, es inofensiva y actúa como un valioso polinizador. Para diferenciar ambas especies, los investigadores tomaron diversas mediciones taxonómicas de los mosquitos capturados.
Según los datos reportados en el estudio, se dispone de información sobre la longitud del ala (en milímetros) de \(n=9\) individuos de la especie Af. Se desea realizar inferencia sobre la media poblacional \(\theta\), considerando que estudios previos sugieren que la longitud promedio de las alas en especies similares es cercana a 1.9 mm, con una desviación estándar de 0.1 mm. Dado que las longitudes son estrictamente positivas, se asume \(\theta > 0\). Los datos observados son: \(1.64, 1.70, 1.72, 1.74, 1.82, 1.82, 1.82, 1.90, 2.08\). Realice inferencia sobre la media \(\theta\), la desviación estándar \(\sigma\) y el coeficiente de variación \(\eta = \sigma/\theta\) utilizando los siguientes modelos:
Hoff, P. D. (2009). A First Course in Bayesian Statistical Methods. Springer New York.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC.