El modelo para variables de conteo \(y_i\in \mathbb{N}_0\), para \(i = 1,\ldots,n\), está dado por \[ \begin{align} y_i\mid\theta &\stackrel{\text{iid}}{\sim}\textsf{Poisson}(\theta) \\ \theta &\sim p(\theta) \end{align} \] donde \(\theta\in \Theta = \mathbb{R}^+\).
Este modelo es potencialmente restrictivo por la relación media-varianza: \(\textsf{E}(y_i\mid\theta) = \textsf{Var}(y_i\mid\theta) = \theta\).
Alternativas:
(Ejercicio.) La distribución muestral de \(\boldsymbol{y} = (y_1,\ldots,y_n)\) dado \(\theta\) es \[ p(\boldsymbol{y}\mid\theta) = \frac{1}{\prod_{i=1}^n y_i!}\,\theta^{s}e^{-n\theta}\,, \] donde \(s= \textstyle\sum_{i=1}^n y_i\), lo cual sugiere que \(s\) es un estadístico suficiente para \(\theta\).
Dado que las \(y_i\)’s son condicionalmente i.i.d. dado \(\theta\) y \(s\) es un estadístico suficiente para \(\theta\), entonces se tiene el modelo equivalente \[ \begin{align*} s\mid\theta &\sim \textsf{Poisson}(n\theta) \\ \theta &\sim p(\theta) \end{align*} \] donde \(s\in\mathcal{Y} = \mathbb{N}_0\).
La familia de distribuciones Gamma es conjugada para la distribución muestral Poisson.
Así, el modelo Gamma-Poisson es \[ \begin{align*} s\mid\theta&\stackrel{\text{iid}}{\sim}\textsf{Poisson}(n\theta) \\ \theta &\sim \textsf{Gamma}(a,b) \end{align*} \] donde \(a\) y \(b\) son los hiperparámetros del modelo.
(Ejercicio.) Bajo el modelo Gamma-Poisson se tiene que la distribución posterior de \(\theta\) es \[ \theta \mid s \sim \textsf{Gamma}(\theta\mid a + s, b+n)\,. \]
(Ejercicio.) La distribución marginal de \(s\) es \[ p(s) = \frac{\Gamma(a+n)}{\Gamma(a)\,\Gamma(s+1)}\left( \frac{b}{b+1}\right)^a\left(\frac{1}{b+1}\right)^s\,,\quad s\in\mathbb{N}_0\,. \]
Esta distribución se conoce como distribución Gamma Poisson con parámetros \(n\in\mathbb{N}\), \(a>0\) y \(b>0\), lo que se denota con \(y\sim\textsf{Gamma-Poisson}(n,a,b)\).
La media posterior es \[ \textsf{E}(\theta\mid s) = \frac{a+s}{b+n} = \frac{b}{b+n}\cdot \frac{a}{b}+\frac{n}{b+n}\cdot \frac{s}{n}\,, \] la cual es un promedio ponderado de la media previa \(\textsf{E}(\theta) = \frac{a}{a+b}\) y la media muestral \(\bar{y} = \frac{s}{n}\) con pesos proporcionales a \(b\) y \(n\), respectivamente.
Esta expresión conlleva a la siguiente interpretación de los hiperparámetros:
(Ejercicio.) La distribución predictiva posterior de una observación futura \(y^*\in\mathbb{N}_0\) es \[ y^*\mid s \sim \textsf{BN}(a+s,b+n) \quad\Longleftrightarrow\quad p(y^*\mid s) = \frac{\Gamma(y^* +a+s)}{\Gamma(a+s)\Gamma(y^*+1)}\left[\frac{b+n}{b+n+1}\right]^{a+s} \left[\frac{1}{b+n+1}\right]^{y^*}\,. \]
La variable aleatoria \(x\) tiene distribución Binomial Negativa con parámetros \(\alpha,\beta > 0\), i.e., \(X\sim\textsf{BN}(\alpha,\beta)\), si su función de masa de probabilidad es \[ p(x\mid\alpha,\beta) = \frac{\Gamma(x+\alpha)}{\Gamma(\alpha)\,\Gamma(x+1)}\,\left[\frac{\beta}{\beta+1}\right]^{\alpha}\,\left[\frac{1}{\beta+1}\right]^x\,,\quad x\in\mathbb{N}_0\,. \]
Se tiene que \(\theta\) (el objetivo inferencial) y \(y^*\) (el objetivo predictivo) tienen la misma media posterior, pero la varianza posterior de \(y^*\) es mayor: \[ \textsf{E}(\theta\mid\boldsymbol{y}) = \textsf{E}(y^*\mid\boldsymbol{y}) = \frac{a+s}{b+n}\,, \] mientras que \[ \textsf{Var}(\theta\mid\boldsymbol{y}) = \frac{a+s}{b+n}\left(0 + \frac{1}{b+n}\right) \qquad\text{y}\qquad \textsf{Var}(y^*\mid\boldsymbol{y}) = \frac{a+s}{b+n}\left(1 + \frac{1}{b+n}\right)\,. \]
Censo Nacional de Población y Vivienda - CNPV - 2018 está disponible en este enlace.
Diccionario de datos (ddi-documentation-spanish-643.pdf
)
está disponible en este enlace.
La base de datos contiene la información de una muestra aleatoria simple de personas que residen en hogares particulares o personas que residen en lugares especiales de alojamiento con las características correspondientes al censo.
Se quiere modelar el número de hijos de personas con las siguientes características: mujer, jefa de hogar, entre 40 y 44 años, alfabetizada, nacida en Colombia, residente en Colombia hace cinco años, sin pertenencia a ningún grupo étnico y que reporta si tiene hijos o no.
¿Existen diferencias significativas en las tasas promedio del número de hijos entre mujeres de 40 a 44 años con y sin educación superior?
Se consideran personas identificadas como: mujer, jefe de hogar, 40 a 44 años, alfabeta, lugar de nacimiento en Colombia, lugar de residencia hace 5 años en Colombia, ningún grupo étnico, informa si tiene hijos o no.
## [1] 71814 48
# Recodificación del nivel educativo
# 0: Sin educación superior (preescolar a técnico)
# 1: Con educación superior (universitario o posgrado)
df$P_NIVEL_ANOSR <- as.numeric(ifelse(df$P_NIVEL_ANOSR %in% c(8, 9), 1, 0))
# Frecuencias: indicadora de educación superior
# PA1_THNV: Hijos(as) nacidos vivos
table(df$P_NIVEL_ANOSR)
##
## 0 1
## 55569 16245
# Recodificación: sin hijos (NA → 0)
df$PA1_THNV <- as.numeric(replace(df$PA1_THNV, is.na(df$PA1_THNV), 0))
##
## 0 1 2 3 4 5 6 7 8 9 10 11 12
## 51390 6091 7009 3984 1719 709 363 200 128 82 45 18 24
## 13 14 15 18 99
## 16 5 8 1 22
# Remover datos faltantes codificados como 99
df <- subset(df, P_NIVEL_ANOSR != 99 & PA1_THNV != 99)
# Definir filtro de selección
filtro <- with(df,
(P_PARENTESCOR == 1) &
(P_SEXO == 2) &
(P_EDADR == 9) &
(PA1_GRP_ETNIC == 6) &
(PA_LUG_NAC %in% c(2,3)) &
(PA_VIVIA_5ANOS %in% c(2,3)) &
(PA_HNV %in% c(1,2)) &
(P_ALFABETA == 1)
)
# Filtrar datos y extraer número de hijos según nivel educativo
y1 <- as.numeric(df[filtro & (df$P_NIVEL_ANOSR == 0), "PA1_THNV"]) # Sin educación superior
y2 <- as.numeric(df[filtro & (df$P_NIVEL_ANOSR == 1), "PA1_THNV"]) # Con educación superior
## [1] 360
## [1] 110
## [1] 762
## [1] 127
## [1] 2
## [1] 0.707
## [1] 764
## [1] 361
## [1] 129
## [1] 111
# Media posterior de theta
theta_hat_1 <- ap1 / bp1
theta_hat_2 <- ap2 / bp2
# Coeficiente de variación (CV) posterior de theta
cv_1 <- 1/sqrt(ap1)
cv_2 <- 1/sqrt(ap2)
# Intervalo de credibilidad al 95% para theta
ic95_1 <- qgamma(c(0.025, 0.975), shape = ap1, rate = bp1)
ic95_2 <- qgamma(c(0.025, 0.975), shape = ap2, rate = bp2)
# Probabilidad posterior de theta > 2
pr_theta_1 <- pgamma(2, shape = ap1, rate = bp1, lower.tail = FALSE)
pr_theta_2 <- pgamma(2, shape = ap2, rate = bp2, lower.tail = FALSE)
# Tabla de resultados
tab <- cbind(
c(theta_hat_1, cv_1, ic95_1, pr_theta_1),
c(theta_hat_2, cv_2, ic95_2, pr_theta_2)
)
colnames(tab) <- c("Sin superior", "Con superior")
rownames(tab) <- c("Media", "CV", "Q2.5%", "Q97.5%", "Pr. > 2")
knitr::kable(
t(tab), digits = 3, align = "c",
caption = "Inferencia sobre la tasa del número de hijos."
)
Media | CV | Q2.5% | Q97.5% | Pr. > 2 | |
---|---|---|---|---|---|
Sin superior | 2.116 | 0.036 | 1.969 | 2.269 | 0.938 |
Con superior | 1.162 | 0.088 | 0.970 | 1.371 | 0.000 |
# Muestras de la distribución posterior de theta
set.seed(123)
th1_mc <- rgamma(10000, shape = ap1, rate = bp1)
th2_mc <- rgamma(10000, shape = ap2, rate = bp2)
## [1] 0.952
## [1] 0.133
## 2.5% 97.5%
## 0.699 1.193
## [1] 1
Estimación | CV | Límite Inf. | Límite Sup. | |
---|---|---|---|---|
Bayesiana | 0.952 | 0.133 | 0.699 | 1.193 |
Frec. Asintótica | 0.962 | 0.119 | 0.737 | 1.187 |
Frec. Bootstrap Par. | 0.963 | 0.134 | 0.707 | 1.211 |
Frec. Bootstrap No Par. | 0.962 | 0.120 | 0.731 | 1.184 |
Estimación | CV | Q2.5% | Q97.5% | |
---|---|---|---|---|
20-24 | 0.537 | 0.133 | 0.399 | 0.679 |
25-29 | 0.852 | 0.103 | 0.684 | 1.026 |
30-34 | 1.015 | 0.106 | 0.801 | 1.223 |
35-39 | 1.117 | 0.104 | 0.886 | 1.341 |
40-44 | 0.956 | 0.135 | 0.702 | 1.205 |
45-49 | 1.114 | 0.131 | 0.820 | 1.394 |
50-54 | 0.987 | 0.142 | 0.709 | 1.258 |
55-59 | 1.162 | 0.132 | 0.855 | 1.456 |
60-64 | 1.154 | 0.143 | 0.821 | 1.469 |
65-69 | 0.872 | 0.217 | 0.491 | 1.227 |
Sea \(y \mid \theta \sim \textsf{Bin}(n, \theta)\) y \(x \mid \theta \sim \textsf{Bin}(m, \theta)\), con \(\theta \sim \textsf{Beta}(a, b)\). Determine la distribución predictiva de \(y\) dado \(x\).
Sea \(y \mid \theta \sim \textsf{Poisson}(\theta)\).
El estimador óptimo del parámetro \(\theta \in \Theta \subset \mathbb{R}\) bajo
la regla de Bayes es el estimador \(\hat\theta
= \hat\theta(\boldsymbol{y})\) que minimiza la pérdida esperada
posterior, definida como
\[
\textsf{E}_{\theta\mid\boldsymbol{y}}(L(\theta,\hat\theta)) =
\int_{\Theta} L(\theta,\hat\theta)\, p(\theta\mid\boldsymbol{y})\,
\textsf{d}\theta\,,
\] donde \(L(\theta,\hat\theta)\) es la función de
pérdida que cuantifica el costo de estimar \(\theta\) mediante \(\hat\theta\), y \(\boldsymbol{y} = (y_1, \dots, y_n)\)
representa los datos observados.
Considere el modelo Gamma-Poisson, donde las observaciones \(y_i \mid \theta \overset{\text{iid}}{\sim} \textsf{Poisson}(\theta)\) para \(i = 1, \dots, n\), y el parámetro \(\theta\) sigue una distribución gamma previa \(\theta \sim \textsf{Gamma}(a, b)\). Se adopta la función de pérdida cuadrática \(L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2\).
Considere el modelo Beta-Binomial, donde la variable aleatoria \(x \mid \theta \sim \textsf{Bin}(n, \theta)\) y el parámetro \(\theta\) sigue una distribución previa \(\theta \sim \textsf{Beta}(\sqrt{n}/2, \sqrt{n}/2)\). Encuentre el estimador que minimiza la pérdida esperada posterior bajo la función de pérdida cuadrática \(L(\theta, \hat\theta) = (\theta - \hat\theta)^2\) y demuestre que su riesgo frecuentista es constante.
Suponga que \(y_i \mid \boldsymbol{\theta} \overset{\text{iid}}{\sim} p(y_i \mid \boldsymbol{\theta})\) para \(i = 1, \dots, n\), donde \(\boldsymbol{\theta} \sim p(\boldsymbol{\theta})\), con \(\boldsymbol{\theta} = (\theta_1, \dots, \theta_k)\) y \(\boldsymbol{y} = (y_1, \dots, y_n)\).
Sea \(\boldsymbol{\theta}_\text{MAP}\) el estimador de máximo a posteriori (MAP), definido como el valor de \(\boldsymbol{\theta}\) que maximiza la distribución posterior: \[ \boldsymbol{\theta}_\text{MAP} = \underset{\boldsymbol{\theta}}{\textsf{arg max}} \, \log p(\boldsymbol{\theta} \mid \boldsymbol{y}) = \underset{\boldsymbol{\theta}}{\textsf{arg max}} \, \left(\log p(\boldsymbol{y} \mid \boldsymbol{\theta}) + \log p(\boldsymbol{\theta})\right). \] Además, considere la matriz de covarianza aproximada \(\mathbf\Sigma_\text{MAP} = -\mathbf{H}^{-1}\), donde \(\mathbf{H}\) es la matriz Hessiana de la log-verosimilitud posterior, cuya entrada \((i,j)\) está dada por: \[ H_{i,j} = \frac{\partial^2}{\partial\theta_i \, \partial\theta_j} \, \log p (\boldsymbol{\theta} \mid \boldsymbol{y}) \Bigg|_{\boldsymbol{\theta}=\boldsymbol{\theta}_\text{MAP}} = \frac{\partial^2}{\partial\theta_i \, \partial\theta_j} \, \left(\log p(\boldsymbol{y} \mid \boldsymbol{\theta}) + \log p(\boldsymbol{\theta})\right) \Bigg|_{\boldsymbol{\theta}=\boldsymbol{\theta}_\text{MAP}}. \] Dado que la constante de normalización \(p(\boldsymbol{y})\) no depende de \(\boldsymbol{\theta}\), esta no afecta la maximización de \(\log p(\boldsymbol{\theta} \mid \boldsymbol{y})\).
El Teorema del Límite Central Bayesiano (BCLT, por sus siglas en inglés) establece que, cuando \(n \to \infty\), la distribución posterior de \(\boldsymbol{\theta}\) puede aproximarse mediante una distribución normal multivariada: \[ \boldsymbol{\theta} \mid \boldsymbol{y} \approx \textsf{N}_k(\boldsymbol{\theta}_\text{MAP},\mathbf\Sigma_\text{MAP}). \] Usando los datos del caso de víctimas de violencia sexual, aproxime la distribución posterior de \(\theta\) mediante el BCLT. Compare la distribución exacta y la aproximada dibujándolas en un mismo gráfico.
La siguiente tabla presenta el número de accidentes aéreos mortales registrados anualmente en aerolíneas de todo el mundo durante un período de diez años (Fuente: Statistical Abstract of the United States). Se asume que el número de accidentes mortales en cada año es condicionalmente independiente y sigue una distribución de Poisson con parámetro \(\theta\).
Año | 1976 | 1977 | 1978 | 1979 | 1980 | 1981 | 1982 | 1983 | 1984 | 1985 |
---|---|---|---|---|---|---|---|---|---|---|
Accidentes | 24 | 25 | 31 | 31 | 22 | 21 | 26 | 20 | 16 | 22 |
Un laboratorio de investigación en cáncer estudia la tasa de tumorogénesis en dos cepas de ratones, A y B. Se han registrado los recuentos de tumores en 10 ratones de la cepa A y 13 de la cepa B. Los ratones de tipo A han sido ampliamente investigados, y estudios previos indican que sus recuentos de tumores siguen aproximadamente una distribución de Poisson con media 12. En contraste, la tasa de tumorogénesis en los ratones de tipo B es desconocida, aunque esta cepa está relacionada con la cepa A. Los recuentos de tumores observados en cada grupo son: \[ \boldsymbol{y}_A = (12, 9, 12, 14, 13, 13, 15, 8, 15, 6),\quad \boldsymbol{y}_B = (11, 11, 10, 9, 9, 8, 7, 10, 6, 8, 8, 9, 7). \]
Un investigador del Departamento de Ingeniería Electrónica y
Eléctrica de la Universidad de Bath (Inglaterra) analizó datos sobre los
tiempos de falla de un tipo específico de alambre metálico. En este
contexto, el tiempo de falla se define como el número de veces que una
máquina puede tensionar el alambre antes de que se rompa. Se dispone de
los siguientes \(n = 14\) tiempos de
falla de un experimento:
\[
\boldsymbol{y} = (495, 541, 1461, 1555, 1603, 2201, 2750, 3468, 3516,
4319, 6622, 7728, 13159, 21194).
\]
El modelo más simple para describir los datos asume que los tiempos
de falla siguen una distribución exponencial, es decir,
\[
y_i \mid \lambda \overset{\text{iid}}{\sim} \textsf{Exp}(\lambda),
\quad \textsf{E}(y_i \mid \lambda) = \lambda, \quad i = 1, \dots, n.
\]
Sea \(X \sim \textsf{Gamma}(\alpha,
\beta)\), con \(\alpha > 0\)
y \(\beta > 0\). Encuentre la
función de densidad de probabilidad de \(Y =
\frac{1}{X}\). La distribución de \(Y\) se denomina distribución gamma inversa
con parámetros \(\alpha\) y \(\beta\), lo que se denota como \(Y \sim \textsf{GI}(\alpha, \beta)\).
Determine la distribución posterior de \(\lambda\), asumiendo que la distribución
previa es \(\lambda \sim \textsf{GI}(a,
b)\), con \(a > 0\) y \(b > 0\).
Demuestre que la media posterior de \(\lambda\) es un promedio ponderado entre la
media previa \(\textsf{E}(\lambda)\) y
la media muestral \(\bar{y} = \frac{1}{n}
\sum_{i=1}^{n} y_i\).
Se dispone de información externa de otro experimento que sugiere
que la distribución previa de \(\lambda\) debe tener una media \(\mu_0 = 4500\) y una desviación estándar
\(\sigma_0 = 1800\). Grafique en un
mismo gráfico las distribuciones previa y posterior de \(\lambda\), utilizando un rango de valores
de 1000 a 12000 en el eje horizontal e identificando qué curva
corresponde a cada densidad.
Demuestre que el estimador de máxima verosimilitud (MLE) de \(\lambda\) y la información observada de
Fisher son, respectivamente:
\[
\hat\lambda_{\text{MLE}} = \bar{y}
\qquad \text{y} \qquad
\hat{I}(\hat\lambda_{\text{MLE}}) = \frac{n}{\bar{y}^2}.
\] Recordando que la información observada de Fisher se define
como
\[
\hat{I}(\hat\lambda_{\text{MLE}}) = \left[
-\frac{\partial^2}{\partial\lambda^2} \log p(\boldsymbol{y} \mid
\lambda) \right]_{\lambda = \hat\lambda_{\text{MLE}}},
\] donde \(p(\boldsymbol{y} \mid
\lambda) = \prod_{i=1}^{n} p(y_i \mid \lambda)\) representa la
función de verosimilitud de la muestra.
Obtenga la estimación puntual, el coeficiente de variación y un intervalo de credibilidad o confianza al 95% para \(\lambda\) bajo los enfoques Bayesiano y frecuentista, considerando los siguientes métodos: Normalidad asintótica del MLE, Bootstrap paramétrico, Bootstrap no paramétrico.
Sugerencia: Recuerde que asintóticamente se tiene que \(\hat\lambda_{\text{MLE}}\sim\textsf{N}(\lambda,\hat{I}^{-1}(\hat\lambda_{\text{MLE}}))\).
Hoff, P. D. (2009). A First Course in Bayesian Statistical Methods. Springer New York.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC.