Introducción

El modelo para variables de conteo \(y_i\in \mathbb{N}_0\), para \(i = 1,\ldots,n\), está dado por \[ \begin{align} y_i\mid\theta &\stackrel{\text{iid}}{\sim}\textsf{Poisson}(\theta) \\ \theta &\sim p(\theta) \end{align} \] donde \(\theta\in \Theta = \mathbb{R}^+\).

Este modelo es potencialmente restrictivo por la relación media-varianza: \(\textsf{E}(y_i\mid\theta) = \textsf{Var}(y_i\mid\theta) = \theta\).

Alternativas:

  • Distribución Binomial Negativa (sobre-dispersión, varianza superior a la esperada).
  • Distribución Comway-Maxwell-Poisson (sub-dispersión, varianza menor a la esperada).

(Ejercicio.) La distribución muestral de \(\boldsymbol{y} = (y_1,\ldots,y_n)\) dado \(\theta\) es \[ p(\boldsymbol{y}\mid\theta) = \frac{1}{\prod_{i=1}^n y_i!}\,\theta^{s}e^{-n\theta}\,, \] donde \(s= \textstyle\sum_{i=1}^n y_i\), lo cual sugiere que \(s\) es un estadístico suficiente para \(\theta\).

Dado que las \(y_i\)’s son condicionalmente i.i.d. dado \(\theta\) y \(s\) es un estadístico suficiente para \(\theta\), entonces se tiene el modelo equivalente \[ \begin{align*} s\mid\theta &\sim \textsf{Poisson}(n\theta) \\ \theta &\sim p(\theta) \end{align*} \] donde \(s\in\mathcal{Y} = \mathbb{N}_0\).

Modelo Gamma-Poisson

La familia de distribuciones Gamma es conjugada para la distribución muestral Poisson.

Así, el modelo Gamma-Poisson es \[ \begin{align*} s\mid\theta&\stackrel{\text{iid}}{\sim}\textsf{Poisson}(n\theta) \\ \theta &\sim \textsf{Gamma}(a,b) \end{align*} \] donde \(a\) y \(b\) son los hiperparámetros del modelo.

Distribución posterior

(Ejercicio.) Bajo el modelo Gamma-Poisson se tiene que la distribución posterior de \(\theta\) es \[ \theta \mid s \sim \textsf{Gamma}(\theta\mid a + s, b+n)\,. \]

Distribución marginal

(Ejercicio.) La distribución marginal de \(s\) es \[ p(s) = \frac{\Gamma(a+n)}{\Gamma(a)\,\Gamma(s+1)}\left( \frac{b}{b+1}\right)^a\left(\frac{1}{b+1}\right)^s\,,\quad s\in\mathbb{N}_0\,. \]

Esta distribución se conoce como distribución Gamma Poisson con parámetros \(n\in\mathbb{N}\), \(a>0\) y \(b>0\), lo que se denota con \(y\sim\textsf{Gamma-Poisson}(n,a,b)\).

Media posterior

La media posterior es \[ \textsf{E}(\theta\mid s) = \frac{a+s}{b+n} = \frac{b}{b+n}\cdot \frac{a}{b}+\frac{n}{b+n}\cdot \frac{s}{n}\,, \] la cual es un promedio ponderado de la media previa \(\textsf{E}(\theta) = \frac{a}{a+b}\) y la media muestral \(\bar{y} = \frac{s}{n}\) con pesos proporcionales a \(b\) y \(n\), respectivamente.

Esta expresión conlleva a la siguiente interpretación de los hiperparámetros:

  • \(b\) = número previo de observaciones.
  • \(a\) = suma de los conteos asociados con las \(b\) observaciones previas.
  • Si \(n>>b\), entonces la mayoría de la información proviene de los datos en lugar de la información previa.

Predicción

(Ejercicio.) La distribución predictiva posterior de una observación futura \(y^*\in\mathbb{N}_0\) es \[ y^*\mid s \sim \textsf{BN}(a+s,b+n) \quad\Longleftrightarrow\quad p(y^*\mid s) = \frac{\Gamma(y^* +a+s)}{\Gamma(a+s)\Gamma(y^*+1)}\left[\frac{b+n}{b+n+1}\right]^{a+s} \left[\frac{1}{b+n+1}\right]^{y^*}\,. \]

Distribución Binomial Negativa

La variable aleatoria \(x\) tiene distribución Binomial Negativa con parámetros \(\alpha,\beta > 0\), i.e., \(X\sim\textsf{BN}(\alpha,\beta)\), si su función de masa de probabilidad es \[ p(x\mid\alpha,\beta) = \frac{\Gamma(x+\alpha)}{\Gamma(\alpha)\,\Gamma(x+1)}\,\left[\frac{\beta}{\beta+1}\right]^{\alpha}\,\left[\frac{1}{\beta+1}\right]^x\,,\quad x\in\mathbb{N}_0\,. \]

Se tiene que \(\theta\) (el objetivo inferencial) y \(y^*\) (el objetivo predictivo) tienen la misma media posterior, pero la varianza posterior de \(y^*\) es mayor: \[ \textsf{E}(\theta\mid\boldsymbol{y}) = \textsf{E}(y^*\mid\boldsymbol{y}) = \frac{a+s}{b+n}\,, \] mientras que \[ \textsf{Var}(\theta\mid\boldsymbol{y}) = \frac{a+s}{b+n}\left(0 + \frac{1}{b+n}\right) \qquad\text{y}\qquad \textsf{Var}(y^*\mid\boldsymbol{y}) = \frac{a+s}{b+n}\left(1 + \frac{1}{b+n}\right)\,. \]

Ejemplo: Número de hijos y educación

Censo Nacional de Población y Vivienda - CNPV - 2018 está disponible en este enlace.

Diccionario de datos (ddi-documentation-spanish-643.pdf) está disponible en este enlace.

La base de datos contiene la información de una muestra aleatoria simple de personas que residen en hogares particulares o personas que residen en lugares especiales de alojamiento con las características correspondientes al censo.

Se quiere modelar el número de hijos de personas con las siguientes características: mujer, jefa de hogar, entre 40 y 44 años, alfabetizada, nacida en Colombia, residente en Colombia hace cinco años, sin pertenencia a ningún grupo étnico y que reporta si tiene hijos o no.

¿Existen diferencias significativas en las tasas promedio del número de hijos entre mujeres de 40 a 44 años con y sin educación superior?

Tratamiento de datos

Se consideran personas identificadas como: mujer, jefe de hogar, 40 a 44 años, alfabeta, lugar de nacimiento en Colombia, lugar de residencia hace 5 años en Colombia, ningún grupo étnico, informa si tiene hijos o no.

# Datos 
df <- read.csv("CNPV2018.txt")

# Dimensiones
dim(df)
## [1] 71814    48
# Recodificación del nivel educativo
# 0: Sin educación superior (preescolar a técnico)
# 1: Con educación superior (universitario o posgrado)
df$P_NIVEL_ANOSR <- as.numeric(ifelse(df$P_NIVEL_ANOSR %in% c(8, 9), 1, 0))
# Frecuencias: indicadora de educación superior
# PA1_THNV: Hijos(as) nacidos vivos
table(df$P_NIVEL_ANOSR)
## 
##     0     1 
## 55569 16245
# Recodificación: sin hijos (NA → 0)
df$PA1_THNV <- as.numeric(replace(df$PA1_THNV, is.na(df$PA1_THNV), 0))
# Frecuencias: número de hijos
table(df$PA1_THNV)
## 
##     0     1     2     3     4     5     6     7     8     9    10    11    12 
## 51390  6091  7009  3984  1719   709   363   200   128    82    45    18    24 
##    13    14    15    18    99 
##    16     5     8     1    22
# Remover datos faltantes codificados como 99
df <- subset(df, P_NIVEL_ANOSR != 99 & PA1_THNV != 99)
# Definir filtro de selección
filtro <- with(df, 
    (P_PARENTESCOR == 1) & 
    (P_SEXO == 2) & 
    (P_EDADR == 9) & 
    (PA1_GRP_ETNIC == 6) & 
    (PA_LUG_NAC %in% c(2,3)) & 
    (PA_VIVIA_5ANOS %in% c(2,3)) & 
    (PA_HNV %in% c(1,2)) & 
    (P_ALFABETA == 1)
)

# Filtrar datos y extraer número de hijos según nivel educativo
y1 <- as.numeric(df[filtro & (df$P_NIVEL_ANOSR == 0), "PA1_THNV"])  # Sin educación superior
y2 <- as.numeric(df[filtro & (df$P_NIVEL_ANOSR == 1), "PA1_THNV"])  # Con educación superior
# Tamaños de muestra
(n1 <- length(y1))
## [1] 360
(n2 <- length(y2))
## [1] 110
# Estadísticos suficientes
(s1 <- sum(y1))
## [1] 762
(s2 <- sum(y2))
## [1] 127

Distribución posterior

# Previa Gamma(2,1)
a <- 2
b <- 1

# Media previa de theta
round(a/b, 3)
## [1] 2
# CV previo de theta
round(sqrt(a/b^2)/(a/b), 3)
## [1] 0.707
# Parámetros de la distribución posterior de theta
(ap1 <- a + s1)
## [1] 764
(bp1 <- b + n1)
## [1] 361
(ap2 <- a + s2)
## [1] 129
(bp2 <- b + n2)
## [1] 111

# Media posterior de theta
theta_hat_1 <- ap1 / bp1
theta_hat_2 <- ap2 / bp2 

# Coeficiente de variación (CV) posterior de theta
cv_1 <- 1/sqrt(ap1)
cv_2 <- 1/sqrt(ap2)

# Intervalo de credibilidad al 95% para theta
ic95_1 <- qgamma(c(0.025, 0.975), shape = ap1, rate = bp1)
ic95_2 <- qgamma(c(0.025, 0.975), shape = ap2, rate = bp2)

# Probabilidad posterior de theta > 2
pr_theta_1 <- pgamma(2, shape = ap1, rate = bp1, lower.tail = FALSE)
pr_theta_2 <- pgamma(2, shape = ap2, rate = bp2, lower.tail = FALSE)

# Tabla de resultados
tab <- cbind(
  c(theta_hat_1, cv_1, ic95_1, pr_theta_1),
  c(theta_hat_2, cv_2, ic95_2, pr_theta_2)
)

colnames(tab) <- c("Sin superior", "Con superior")
rownames(tab) <- c("Media", "CV", "Q2.5%", "Q97.5%", "Pr. > 2")

knitr::kable(
     t(tab), digits = 3, align = "c", 
     caption = "Inferencia sobre la tasa del número de hijos."
)
Inferencia sobre la tasa del número de hijos.
Media CV Q2.5% Q97.5% Pr. > 2
Sin superior 2.116 0.036 1.969 2.269 0.938
Con superior 1.162 0.088 0.970 1.371 0.000

Comparación de grupos

# Muestras de la distribución posterior de theta
set.seed(123)
th1_mc <- rgamma(10000, shape = ap1, rate = bp1)
th2_mc <- rgamma(10000, shape = ap2, rate = bp2)
# muestras de la distribución posterior de eta = theta_1 - theta_2
eta <- th1_mc - th2_mc

# Media posterior de eta = theta_1 - theta_2
round(mean(eta), 3)
## [1] 0.952
# Coeficiente de variación posterior de eta
round(sd(eta) / mean(eta), 3)
## [1] 0.133
# Intervalo de credibilidad al 95% para eta
round(quantile(eta, probs = c(0.025, 0.975)), 3)
##  2.5% 97.5% 
## 0.699 1.193
# Probabilidad posterior de que eta > 0
round(mean(eta > 0), 3)
## [1] 1
Inferencia sobre la diferencia en las tasas promedio del número de hijos de mujeres de 40 a 44 años con y sin educación superior.
Estimación CV Límite Inf. Límite Sup.
Bayesiana 0.952 0.133 0.699 1.193
Frec. Asintótica 0.962 0.119 0.737 1.187
Frec. Bootstrap Par. 0.963 0.134 0.707 1.211
Frec. Bootstrap No Par. 0.962 0.120 0.731 1.184

Inferencia otros quinquenios

Inferencia sobre la diferencia entre las tasas promedio del número de hijos con educación superior y sin educación superior, por grupos quinquenales de edad.
Estimación CV Q2.5% Q97.5%
20-24 0.537 0.133 0.399 0.679
25-29 0.852 0.103 0.684 1.026
30-34 1.015 0.106 0.801 1.223
35-39 1.117 0.104 0.886 1.341
40-44 0.956 0.135 0.702 1.205
45-49 1.114 0.131 0.820 1.394
50-54 0.987 0.142 0.709 1.258
55-59 1.162 0.132 0.855 1.456
60-64 1.154 0.143 0.821 1.469
65-69 0.872 0.217 0.491 1.227

Ejercicios conceptuales

  • Sea \(y \mid \theta \sim \textsf{Bin}(n, \theta)\) y \(x \mid \theta \sim \textsf{Bin}(m, \theta)\), con \(\theta \sim \textsf{Beta}(a, b)\). Determine la distribución predictiva de \(y\) dado \(x\).

  • Sea \(y \mid \theta \sim \textsf{Poisson}(\theta)\).

    1. Obtenga la distribución previa de Jeffreys para \(\theta\). ¿Esta distribución previa es propia?
    2. Obtenga la distribución posterior correspondiente y determine las condiciones sobre \(y\) que garantizan que esta distribución sea propia.
  • El estimador óptimo del parámetro \(\theta \in \Theta \subset \mathbb{R}\) bajo la regla de Bayes es el estimador \(\hat\theta = \hat\theta(\boldsymbol{y})\) que minimiza la pérdida esperada posterior, definida como
    \[ \textsf{E}_{\theta\mid\boldsymbol{y}}(L(\theta,\hat\theta)) = \int_{\Theta} L(\theta,\hat\theta)\, p(\theta\mid\boldsymbol{y})\, \textsf{d}\theta\,, \] donde \(L(\theta,\hat\theta)\) es la función de pérdida que cuantifica el costo de estimar \(\theta\) mediante \(\hat\theta\), y \(\boldsymbol{y} = (y_1, \dots, y_n)\) representa los datos observados.

    1. Demuestre que si la función de pérdida es cuadrática, es decir, \(L(\theta, \hat\theta) = (\theta - \hat\theta)^2\), entonces el estimador óptimo según la regla de Bayes es la media posterior, es decir, \(\hat\theta = \textsf{E}(\theta \mid \boldsymbol{y})\).
    2. Demuestre que si la función de pérdida es absoluta, es decir, \(L(\theta, \hat\theta) = |\theta - \hat\theta|\), entonces el estimador óptimo según la regla de Bayes es la mediana posterior, es decir, \(\hat\theta = (\theta\mid\boldsymbol{y})_{0.5}\).
    3. El riesgo frecuentista \(R_{\textsf{F}}(\theta,\hat\theta)\) se define como
      \[ R_{\textsf{F}}(\theta,\hat\theta) = \textsf{E}_{\boldsymbol{y}\mid\theta}(L(\theta,\hat\theta)) = \int_{\mathcal{Y}} L(\theta,\hat\theta)\, p(\boldsymbol{y}\mid\theta)\,\textsf{d}\boldsymbol{y}\,, \] es decir, el valor esperado de la función de pérdida \(L(\theta,\hat\theta)\) sobre todos los valores posibles de los datos \(\boldsymbol{y} \in \mathcal{Y}\). Por otro lado, el riesgo Bayesiano \(R_{\textsf{B}}(\theta,\hat\theta)\) se define como
      \[ R_{\textsf{B}}(\theta,\hat\theta) = \textsf{E}_{\theta}(R_{\textsf{F}}(\theta,\hat\theta)) = \int_{\Theta} R_{\textsf{F}}(\theta,\hat\theta)\, p(\theta)\,\textsf{d}\theta\,, \] es decir, el valor esperado del riesgo frecuentista \(R_{\textsf{F}}(\theta,\hat\theta)\) respecto a la distribución previa de \(\theta\). Demuestre que
      \[ R_{\textsf{B}}(\theta,\hat\theta) = \textsf{E}_{\boldsymbol{y}}(\textsf{E}_{\theta\mid\boldsymbol{y}}(L(\theta,\hat\theta)))\,, \]donde \(\textsf{E}_{\boldsymbol{y}}(\cdot)\) denota la esperanza respecto a la distribución marginal \(p(\boldsymbol{y})\).
  • Considere el modelo Gamma-Poisson, donde las observaciones \(y_i \mid \theta \overset{\text{iid}}{\sim} \textsf{Poisson}(\theta)\) para \(i = 1, \dots, n\), y el parámetro \(\theta\) sigue una distribución gamma previa \(\theta \sim \textsf{Gamma}(a, b)\). Se adopta la función de pérdida cuadrática \(L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2\).

    1. Demuestre que el estimador que minimiza la pérdida esperada posterior tiene la forma \(\hat\theta = a + b \bar{y}\), donde \(a > 0\), \(b \in (0,1)\) y \(\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i\).
    2. Calcule el riesgo frecuentista tanto del estimador \(\hat\theta\) como del estimador de máxima verosimilitud.
    3. Determine el riesgo Bayesiano del estimador \(\hat\theta\).
  • Considere el modelo Beta-Binomial, donde la variable aleatoria \(x \mid \theta \sim \textsf{Bin}(n, \theta)\) y el parámetro \(\theta\) sigue una distribución previa \(\theta \sim \textsf{Beta}(\sqrt{n}/2, \sqrt{n}/2)\). Encuentre el estimador que minimiza la pérdida esperada posterior bajo la función de pérdida cuadrática \(L(\theta, \hat\theta) = (\theta - \hat\theta)^2\) y demuestre que su riesgo frecuentista es constante.

  • Suponga que \(y_i \mid \boldsymbol{\theta} \overset{\text{iid}}{\sim} p(y_i \mid \boldsymbol{\theta})\) para \(i = 1, \dots, n\), donde \(\boldsymbol{\theta} \sim p(\boldsymbol{\theta})\), con \(\boldsymbol{\theta} = (\theta_1, \dots, \theta_k)\) y \(\boldsymbol{y} = (y_1, \dots, y_n)\).

    Sea \(\boldsymbol{\theta}_\text{MAP}\) el estimador de máximo a posteriori (MAP), definido como el valor de \(\boldsymbol{\theta}\) que maximiza la distribución posterior: \[ \boldsymbol{\theta}_\text{MAP} = \underset{\boldsymbol{\theta}}{\textsf{arg max}} \, \log p(\boldsymbol{\theta} \mid \boldsymbol{y}) = \underset{\boldsymbol{\theta}}{\textsf{arg max}} \, \left(\log p(\boldsymbol{y} \mid \boldsymbol{\theta}) + \log p(\boldsymbol{\theta})\right). \] Además, considere la matriz de covarianza aproximada \(\mathbf\Sigma_\text{MAP} = -\mathbf{H}^{-1}\), donde \(\mathbf{H}\) es la matriz Hessiana de la log-verosimilitud posterior, cuya entrada \((i,j)\) está dada por: \[ H_{i,j} = \frac{\partial^2}{\partial\theta_i \, \partial\theta_j} \, \log p (\boldsymbol{\theta} \mid \boldsymbol{y}) \Bigg|_{\boldsymbol{\theta}=\boldsymbol{\theta}_\text{MAP}} = \frac{\partial^2}{\partial\theta_i \, \partial\theta_j} \, \left(\log p(\boldsymbol{y} \mid \boldsymbol{\theta}) + \log p(\boldsymbol{\theta})\right) \Bigg|_{\boldsymbol{\theta}=\boldsymbol{\theta}_\text{MAP}}. \] Dado que la constante de normalización \(p(\boldsymbol{y})\) no depende de \(\boldsymbol{\theta}\), esta no afecta la maximización de \(\log p(\boldsymbol{\theta} \mid \boldsymbol{y})\).

    El Teorema del Límite Central Bayesiano (BCLT, por sus siglas en inglés) establece que, cuando \(n \to \infty\), la distribución posterior de \(\boldsymbol{\theta}\) puede aproximarse mediante una distribución normal multivariada: \[ \boldsymbol{\theta} \mid \boldsymbol{y} \approx \textsf{N}_k(\boldsymbol{\theta}_\text{MAP},\mathbf\Sigma_\text{MAP}). \] Usando los datos del caso de víctimas de violencia sexual, aproxime la distribución posterior de \(\theta\) mediante el BCLT. Compare la distribución exacta y la aproximada dibujándolas en un mismo gráfico.

Ejercicios prácticos

  • La siguiente tabla presenta el número de accidentes aéreos mortales registrados anualmente en aerolíneas de todo el mundo durante un período de diez años (Fuente: Statistical Abstract of the United States). Se asume que el número de accidentes mortales en cada año es condicionalmente independiente y sigue una distribución de Poisson con parámetro \(\theta\).

    Año 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
    Accidentes 24 25 31 31 22 21 26 20 16 22
    1. Defina una distribución previa para \(\theta\) y justifique su elección.
    2. Determine la distribución posterior de \(\theta\) con base en los datos observados de 1976 a 1985.
    3. Bajo este modelo, calcule un intervalo predictivo del 95% para el número de accidentes fatales en 1986.
  • Un laboratorio de investigación en cáncer estudia la tasa de tumorogénesis en dos cepas de ratones, A y B. Se han registrado los recuentos de tumores en 10 ratones de la cepa A y 13 de la cepa B. Los ratones de tipo A han sido ampliamente investigados, y estudios previos indican que sus recuentos de tumores siguen aproximadamente una distribución de Poisson con media 12. En contraste, la tasa de tumorogénesis en los ratones de tipo B es desconocida, aunque esta cepa está relacionada con la cepa A. Los recuentos de tumores observados en cada grupo son: \[ \boldsymbol{y}_A = (12, 9, 12, 14, 13, 13, 15, 8, 15, 6),\quad \boldsymbol{y}_B = (11, 11, 10, 9, 9, 8, 7, 10, 6, 8, 8, 9, 7). \]

    1. Determine las distribuciones posteriores, medias, varianzas e intervalos de credibilidad del 95% basados en cuantiles para \(\theta_A\) y \(\theta_B\), asumiendo que los recuentos de tumores en cada grupo siguen distribuciones de Poisson independientes y que las distribuciones previas están dadas por: \[ \theta_A \sim \textsf{Gamma}(120,10), \quad \theta_B \sim \textsf{Gamma}(12,1). \]
    2. Calcule y grafique la esperanza posterior de \(\theta_B\) considerando la distribución previa \(\theta_B \sim \textsf{Gamma}(12\,n_0, n_0)\) para cada \(n_0 \in \{1, 2, \dots, 50\}\). Analice qué configuraciones de la distribución previa de \(\theta_B\) serían necesarias para que su esperanza posterior se aproxime a la de \(\theta_A\).
    3. Evalúe si la información sobre la población A debería afectar las inferencias sobre la población B. Analice la pertinencia de asumir independencia entre \(\theta_A\) y \(\theta_B\), es decir, \(p(\theta_A, \theta_B) = p(\theta_A) \, p(\theta_B)\), considerando la relación entre ambas cepas y la posible influencia de este supuesto en las estimaciones.
  • Un investigador del Departamento de Ingeniería Electrónica y Eléctrica de la Universidad de Bath (Inglaterra) analizó datos sobre los tiempos de falla de un tipo específico de alambre metálico. En este contexto, el tiempo de falla se define como el número de veces que una máquina puede tensionar el alambre antes de que se rompa. Se dispone de los siguientes \(n = 14\) tiempos de falla de un experimento:
    \[ \boldsymbol{y} = (495, 541, 1461, 1555, 1603, 2201, 2750, 3468, 3516, 4319, 6622, 7728, 13159, 21194). \]

    El modelo más simple para describir los datos asume que los tiempos de falla siguen una distribución exponencial, es decir,
    \[ y_i \mid \lambda \overset{\text{iid}}{\sim} \textsf{Exp}(\lambda), \quad \textsf{E}(y_i \mid \lambda) = \lambda, \quad i = 1, \dots, n. \]

    1. Sea \(X \sim \textsf{Gamma}(\alpha, \beta)\), con \(\alpha > 0\) y \(\beta > 0\). Encuentre la función de densidad de probabilidad de \(Y = \frac{1}{X}\). La distribución de \(Y\) se denomina distribución gamma inversa con parámetros \(\alpha\) y \(\beta\), lo que se denota como \(Y \sim \textsf{GI}(\alpha, \beta)\).

    2. Determine la distribución posterior de \(\lambda\), asumiendo que la distribución previa es \(\lambda \sim \textsf{GI}(a, b)\), con \(a > 0\) y \(b > 0\).

    3. Demuestre que la media posterior de \(\lambda\) es un promedio ponderado entre la media previa \(\textsf{E}(\lambda)\) y la media muestral \(\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i\).

    4. Se dispone de información externa de otro experimento que sugiere que la distribución previa de \(\lambda\) debe tener una media \(\mu_0 = 4500\) y una desviación estándar \(\sigma_0 = 1800\). Grafique en un mismo gráfico las distribuciones previa y posterior de \(\lambda\), utilizando un rango de valores de 1000 a 12000 en el eje horizontal e identificando qué curva corresponde a cada densidad.

    5. Demuestre que el estimador de máxima verosimilitud (MLE) de \(\lambda\) y la información observada de Fisher son, respectivamente:
      \[ \hat\lambda_{\text{MLE}} = \bar{y} \qquad \text{y} \qquad \hat{I}(\hat\lambda_{\text{MLE}}) = \frac{n}{\bar{y}^2}. \] Recordando que la información observada de Fisher se define como
      \[ \hat{I}(\hat\lambda_{\text{MLE}}) = \left[ -\frac{\partial^2}{\partial\lambda^2} \log p(\boldsymbol{y} \mid \lambda) \right]_{\lambda = \hat\lambda_{\text{MLE}}}, \] donde \(p(\boldsymbol{y} \mid \lambda) = \prod_{i=1}^{n} p(y_i \mid \lambda)\) representa la función de verosimilitud de la muestra.

    6. Obtenga la estimación puntual, el coeficiente de variación y un intervalo de credibilidad o confianza al 95% para \(\lambda\) bajo los enfoques Bayesiano y frecuentista, considerando los siguientes métodos: Normalidad asintótica del MLE, Bootstrap paramétrico, Bootstrap no paramétrico.

      Sugerencia: Recuerde que asintóticamente se tiene que \(\hat\lambda_{\text{MLE}}\sim\textsf{N}(\lambda,\hat{I}^{-1}(\hat\lambda_{\text{MLE}}))\).

Referencias

Hoff, P. D. (2009). A First Course in Bayesian Statistical Methods. Springer New York.

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC.