El modelo para variables binarias \(y_i\in \{0,1\}\), con \(i = 1,\ldots,n\), está dado por \[ \begin{align*} y_i\mid\theta &\stackrel{\text{iid}}{\sim}\textsf{Ber}(\theta) \\ \theta &\sim p(\theta) \end{align*} \] donde \(\theta\in\Theta =(0,1)\).
(Ejercicio.) La distribución muestral de \(\boldsymbol{y} = (y_1,\ldots,y_n)\) dado \(\theta\) es \[ p(\boldsymbol{y}\mid\theta) = \theta^{y}(1-\theta)^{n - y}\,, \] donde \(y = \sum_{i=1}^n y_i\).
Esta expresión sugiere que \(y\) es un estadístico suficiente para \(\theta\) (\(y\) contiene toda la información de los datos para hacer inferencia sobre \(\theta\)).
Sea \(y_1,\ldots,y_n\) una secuencia de variables aleatorias con distribución de probabilidad \(f_\theta(y_1,\ldots,y_n)\) que depende de un parámetro desconocido \(\theta\). Se dice que el estadístico \(t=t(y_1,\ldots,y_n)\) es un estadístico suficiente para \(\theta\) si la distribución condicional de \(y_1,\ldots,y_n\) dado \(t\) no depende de \(\theta\).
(Teorema de Factorización de Fisher-Neyman.) \(t(y_1,\ldots,y_n)\) es un estadístico suficiente para \(\theta\) si y sólo si se pueden encontrar dos funciones no negativas \(h\) y \(g_\theta\) tales que \(f_\theta(y_1,\ldots,y_n) = h(y_1,\ldots,y_n)\,g_\theta(t(y_1,\ldots,y_n))\).
En este caso,
\[
p(\boldsymbol{y}\mid\theta) = \theta^y (1 - \theta)^{n - y},
\]
donde \(h(\boldsymbol{y}) = 1\) y \(g_\theta(s) = \theta^y (1 - \theta)^{n -
y}\).
Dado que esta factorización satisface el criterio, \(y\) es suficiente para \(\theta\) en el modelo Binomial.
Dado que las \(y_i\) son condicionalmente i.i.d. dado \(\theta\) y \(y\) es un estadístico suficiente para \(\theta\), entonces se tiene el modelo equivalente \[ \begin{align*} y\mid\theta &\sim \textsf{Bin}(n,\theta) \\ \theta &\sim p(\theta) \end{align*} \] donde \(y\in\mathcal{Y}=\{0,\ldots,n\}\).
Una familia de distribuciones \(\mathcal{P}\) es conjugada para la distribución muestral \(p(\boldsymbol{y}\mid\boldsymbol{\theta})\), siempre que \(p(\boldsymbol{\theta}\mid \boldsymbol{y}) \in \mathcal{P}\) cuando \(p(\boldsymbol{\theta}) \in \mathcal{P}\).
Las previas conjugadas conllevan a cálculos fáciles de realizar, pero pueden ser poco flexibles para representar información previa.
Sea \(y\) una variable aleatoria cuya distribución de probabilidad depende de un solo parámetro \(\phi\). Se dice que esta distribución pertenece a la familia exponencial de un parámetro si la función de densidad de probabilidad (función de masa de probabilidad) de \(y\) se puede expresar como \[ p(y\mid\phi) = h(y)\,c(\phi)\exp{ \left\{ \phi\,t(y) \right\} } \] donde \(h\), \(c\) y \(t\) son funciones conocidas.
Para distribuciones muestrales pertenecientes la familia exponencial de un parámetro, la distribución previa conjugada es de la forma \[ p(\phi) \propto \,c(\phi)^{n_0}\exp{ \left\{ \phi\,n_0\,t_0 \right\} } \] dado que \[ p(\phi\mid\boldsymbol{y}) \propto c(\phi)^{n_0 + n} \exp{ \left\{ \phi\left[\,n_0\,t_0 + n\,t(\boldsymbol{y}) \right] \right\} } \] donde \(t(\boldsymbol{y}) = \frac{1}{n}\sum_{i=1}^n t(y_i)\). Bajo esta formulación, \(n_0\) es una medida de cuán informativa es la distribución previa y \(t_0\) es el valor esperado previo de \(t(y)\).
(Ejercicio.) En el caso de \(y\mid\theta\sim\textsf{Ber}(\theta)\), se tiene que \[ \phi = \log\left(\frac{\theta}{1-\theta}\right)\,,\qquad t(y) = y\,,\qquad h(y) = 1\,,\qquad c(\phi) = (1+e^\phi)^{-1}\,, \] dado que \[ p(y \mid \theta) = \theta^y (1 - \theta)^{1 - y} = \exp { \left( y \log \frac{\theta}{1 - \theta} + \log (1 - \theta) \right) }, \] de donde, \[ p(\phi) \propto (1+e^\phi)^{-n_0}e^{ \phi\,n_0\,t_0 } \quad\Longleftrightarrow\quad p(\theta) \propto \theta^{n_0t_0 - 1}(1-\theta)^{n_0(1-t_0) - 1} \quad\Longleftrightarrow\quad \theta\sim\textsf{Beta}(n_0t_0,n_0(1-t_0))\,. \]
La familia de distribuciones Beta es conjugada para la distribución muestral Binomial.
El modelo Beta-Binomial es \[ \begin{align*} y\mid\theta &\sim \textsf{Bin}(n,\theta) \\ \theta &\sim \textsf{Beta}(a,b) \end{align*} \] donde \(a\) y \(b\) son los hiperparámetros del modelo.
Los hiperparámetros se eligen de tal forma que \(p(\theta)\) refleje el estado de información acerca de \(\theta\) externo al conjunto de datos.
La distribución posterior de \(\theta\) es \[ \begin{align*} p(\theta\mid y) &\propto p(\theta\mid y)\,p(\theta) \\ &= \binom{n}{y} \theta^y (1 - \theta)^{n-y}\,\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \theta^{a-1} (1 - \theta)^{b-1} \\ &\propto \theta^{a + y - 1} (1 - \theta)^{b + n - y -1} \end{align*} \] lo que corresponde al núcleo de una distribución Beta con parámetros \(a + y\) y \(b + n - y\), de donde \[ \theta\mid y \sim \textsf{Beta}(\theta \mid a + y, b+n-y)\,. \]
La distribución marginal de \(y\) es \[ \begin{align*} p(y) &= \int_\Theta p(y\mid\theta)\,p(\theta)\,\text{d}\theta \\ &= \int_0^1 \binom{n}{y} \theta^y (1 - \theta)^{n-y}\,\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \theta^{a-1} (1 - \theta)^{b-1}\,\text{d}\theta \\ &= \binom{n}{y} \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \int_0^1 \theta^{a + y - 1} (1 - \theta)^{b + n - y -1}\, \text{d}\theta \\ &= \binom{n}{y} \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \frac{\Gamma(a+y)\,\Gamma(b+n-y)}{\Gamma(a+b+n)} \end{align*} \] y por lo tanto, \[ p(y) = \frac{\Gamma(n+1)}{\Gamma(y+1)\Gamma(n-y+1)}\,\frac{\Gamma(a+b)}{\Gamma(a)\,\Gamma(b)}\,\frac{\Gamma(a+y)\,\Gamma(b+n-y)}{\Gamma(a+b+n)}\,,\quad y\in\{0,\ldots,n\}\,. \]
Esta distribución se conoce como distribución Beta Binomial con parámetros \(n\in\mathbb{N}\), \(a>0\) y \(b>0\), lo que se denota con \(y\sim\textsf{Beta-Binomial}(n,a,b)\).
Esta distribución es un promedio ponderado (mezcla) de distribuciones Binomiales, ponderadas por la distribución Beta.
La media posterior es \[ \textsf{E}(\theta\mid y) = \frac{a+y}{a+b+n} = \frac{a+b}{a+b+n}\cdot\frac{a}{a+b}+\frac{n}{a+b+n}\cdot\frac{y}{n}\,, \] la cual es un promedio ponderado de la media previa \(\textsf{E}(\theta) = \frac{a}{a+b}\) y la media muestral \(\bar{y} = \frac{y}{n}\) con pesos proporcionales a \(a+b\) y \(n\), respectivamente.
Esta expresión conlleva a la siguiente interpretación de los hiperparámetros:
La distribución predictiva posterior de una observación futura \(y^*\in\{0,1\}\) es \[ \begin{align*} \textsf{Pr}(y^* = 1\mid y) &= \int_\Theta p(y^* = 1\mid \theta)\,p(\theta\mid y)\,\text{d}\theta \\ &= \int_0^1 \theta^1 (1-\theta)^{1 - 1}\, \frac{\Gamma(a+b+n)}{\Gamma(a+y)\,\Gamma(b+n-y)} \, \theta^{a + y - 1} (1 - \theta)^{b + n - y}\, \text{d}\theta \\ &= \frac{\Gamma(a+b+n)}{\Gamma(a+y)\,\Gamma(b+n-y)} \int_0^1 \theta^{a + y + 1 - 1} (1 - \theta)^{b + n - y-1}\, \text{d}\theta \\ &= \frac{\Gamma(a+b+n)}{\Gamma(a+y)\,\Gamma(b+n-y)} \frac{\Gamma(a+y+1)\Gamma(b+n-y)}{\Gamma(a+b+n+1)} \end{align*} \] y por lo tanto, \[ y^*\mid y \sim \textsf{Ber}\left( \frac{a+y}{a+b+n} \right)\,. \]
La distribución predictiva posterior depende únicamente de los hiperparámetros y de los datos observados, sin involucrar cantidades desconocidas. Por lo tanto, \(y^*\) no es independiente de \(y\), ya que observar \(y\) proporciona información sobre \(\theta\), lo que a su vez afecta la distribución de \(y^*\).
Se quiere identificar regiones del espacio de parámetros que con alta probabilidad contengan el valor del parámetro de interés.
Se dice que el intervalo de credibilidad \((l,u)\) tiene una cobertura Bayesiana del \(100(1-\alpha)\%\) para \(\theta\), con \(0 < \alpha < 1\), si \[ \textsf{Pr}(l < \theta < u\mid\boldsymbol{y}) = 1-\alpha\,. \]
Este intervalo describe el estado de información acerca de la localización de \(\theta\) después de observar los datos.
Esta interpretación es radicalmente diferente de la cobertura frecuentista, la cual describe la probabilidad de que el intervalo pase por el valor verdadero de \(\theta\) antes de observar los datos.
La manera más sencilla de obtener intervalos de credibilidad es por medio de los percentiles de la distribución posterior de forma que \[ \textsf{Pr}\left(\theta_{\alpha/2} < \theta < \theta_{1-\alpha/2}\mid \boldsymbol{y}\right) = 1-\alpha\,. \]
(Teorema.) Si un intervalo de credibilidad tiene un nivel de confianza Bayesiano de \(100(1-\alpha)\%\), entonces este intervalo tiene asintóticamente un nivel de confianza frecuentista de \(100(1-\alpha)\%\) (Hartigan, 1966).
Datos de las víctimas de violencia sexual suministrados por el Observatorio de Memoria y Conflicto y el Centro Nacional de Memoria Histórica disponibles en este enlace.
Se quiere hacer inferencia sobre la proporción poblacional de mujeres victimas de violencia sexual en 2016 \(\theta\) por medio de un modelo Beta-Binomial con una distribución previa no informativa.
De acuerdo con Semana, el 91.8% de los abusos sexuales en Colombia pertenecen a mujeres. ¿Los datos en 2016 apoyan esta afirmación?
Se define \(y_i = 1\) si el individuo \(i\) es mujer, y \(y_i = 0\) en caso contrario, para \(i = 1,\ldots,n\).
## [1] 15886 18
## [1] "id_caso" "codigo_dane_municipio"
## [3] "municipio" "departamento"
## [5] "agno" "mes"
## [7] "dia" "id_persona"
## [9] "sexo" "etnia"
## [11] "ocupacion" "calidad_victima"
## [13] "tipo_poblacion" "militante_politico"
## [15] "grupo_armado" "descripcion_grupo_armado"
## [17] "situacion_victima" "edad"
##
## Hombre Mujer Sin Informacion
## 1481 14378 27
## [1] 0.00169961
# codificación
df <- df[df$sexo != "Sin Informacion",]
df$sexo[df$sexo == "Mujer" ] <- 1
df$sexo[df$sexo == "Hombre"] <- 0
df$sexo <- as.numeric(df$sexo)
# sexo año 2016
y <- df[df$agno == 2016, "sexo"]
# frecuencias sexo año 2016
table(y)
## y
## 0 1
## 11 69
## [1] 80
## [1] 69
## [1] 70
## [1] 12
## [1] 0.854
## [1] 0.857
## [1] 0.863
## [1] 0.045
## [1] 0.770 0.921
# probabilidad posterior de que theta > 0.8
round(pbeta(q = 0.8, shape1 = ap, shape2 = bp, lower.tail = F), 3)
## [1] 0.908
Media | Mediana | Moda | CV | Q2.5. | Q97.5. |
---|---|---|---|---|---|
0.854 | 0.857 | 0.863 | 0.045 | 0.77 | 0.921 |
Año | n | Media | CV | Q2.5% | Q97.5% |
---|---|---|---|---|---|
2000 | 1181 | 0.932 | 0.008 | 0.916 | 0.945 |
2001 | 1125 | 0.913 | 0.009 | 0.896 | 0.929 |
2002 | 1486 | 0.894 | 0.009 | 0.878 | 0.909 |
2003 | 1325 | 0.909 | 0.009 | 0.893 | 0.924 |
2004 | 1145 | 0.935 | 0.008 | 0.920 | 0.948 |
2005 | 925 | 0.915 | 0.010 | 0.896 | 0.932 |
2006 | 565 | 0.919 | 0.012 | 0.895 | 0.940 |
2007 | 439 | 0.930 | 0.013 | 0.904 | 0.952 |
2008 | 402 | 0.913 | 0.015 | 0.884 | 0.939 |
2009 | 325 | 0.930 | 0.015 | 0.900 | 0.955 |
2010 | 316 | 0.906 | 0.018 | 0.871 | 0.935 |
2011 | 314 | 0.921 | 0.016 | 0.889 | 0.948 |
2012 | 398 | 0.950 | 0.011 | 0.927 | 0.969 |
2013 | 414 | 0.921 | 0.014 | 0.893 | 0.945 |
2014 | 668 | 0.943 | 0.009 | 0.925 | 0.959 |
2015 | 331 | 0.937 | 0.014 | 0.908 | 0.960 |
2016 | 80 | 0.854 | 0.045 | 0.770 | 0.921 |
2017 | 30 | 0.875 | 0.066 | 0.742 | 0.964 |
2018 | 22 | 0.917 | 0.060 | 0.781 | 0.989 |
2019 | 35 | 0.838 | 0.071 | 0.705 | 0.936 |
2020 | 14 | 0.688 | 0.164 | 0.449 | 0.882 |
2021 | 9 | 0.909 | 0.091 | 0.692 | 0.997 |
Considere el modelo Beta-Binomial:
\[
y \mid \theta \sim \textsf{Bin}(n, \theta), \quad \theta \sim
\textsf{Beta}(a, b)
\] donde \(y \in \mathcal{Y} = \{0,
\dots, n\}\) y \(\theta \in \Theta =
(0,1)\).
Suponga que una población de interés contiene artículos de \(k \geq 2\) tipos y que la proporción de
artículos del tipo \(j\) es \(0 < \theta_j < 1\) para \(j = 1, \dots, k\). Definiendo \(\boldsymbol{\theta} = (\theta_1, \dots,
\theta_k)\), se tiene que sus componentes satisfacen la
restricción \(\sum_{j=1}^{k} \theta_j =
1\). Ahora, considere una muestra IID \(\boldsymbol{y} = (y_1, \dots, y_n)\) de
tamaño \(n\) extraída de esta
población. Sea \(\boldsymbol{n} = (n_1, \dots,
n_k)\) el vector aleatorio que almacena los conteos de cada tipo
de artículo en la muestra, donde \(n_j\) representa el número de elementos de
tipo \(j\) en la muestra para \(j = 1, \dots, k\). En este contexto, el
vector \(\boldsymbol{n}\) sigue una
distribución multinomial con parámetros \(n\) y \(\boldsymbol{\theta}\), definida como \(\boldsymbol{n} \mid n, \boldsymbol{\theta} \sim
\textsf{Multinomial}(n, \boldsymbol{\theta})\), si y solo si la
función de probabilidad está dada por
\[
p(\boldsymbol{n} \mid n, \boldsymbol{\theta}) =
\frac{n!}{\prod_{j=1}^{k} n_j!} \prod_{j=1}^{k} \theta_j^{n_j},
\] bajo las condiciones
\[
\sum_{j=1}^{k} n_j = n, \quad 0 \leq n_j \leq n, \quad \text{para todo }
j = 1, \dots, k.
\] Considere el modelo donde la distribución muestral es \(\boldsymbol{n} \mid n, \boldsymbol{\theta} \sim
\textsf{Multinomial}(n, \boldsymbol{\theta})\), y la distribución
previa es \(\boldsymbol{\theta} \sim
\textsf{Dirichlet}(a_1, \dots, a_k)\), donde \(a_1, \dots, a_k\) son los hiperparámetros
del modelo. Demuestre que la distribución posterior es
\[
\boldsymbol{\theta} \mid \boldsymbol{n} \sim \textsf{Dirichlet}(a_1 +
n_1, \dots, a_k + n_k).
\]
Además, pruebe que la media posterior de \(\theta_j\) es un promedio ponderado que
combina la información de la distribución previa y los datos
observados.
Una cantidad desconocida \(y\)
sigue una distribución Galenshore con parámetros \(\alpha\) y \(\beta\) si su función de densidad está dada
por:
\[
p(y\mid \alpha, \beta) = \frac{2}{\Gamma(\alpha)} \beta^{2\alpha}
y^{2\alpha-1} e^{-\beta^2 y^2}, \quad \text{para } y > 0, \beta >
0, \alpha > 0.
\] En este caso, se cumple que:
\[
\textsf{E}(y\mid \alpha, \beta) = \frac{\Gamma(\alpha + 1/2)}{\beta
\Gamma(\alpha)}, \quad \textsf{E}(y^2\mid \alpha, \beta) =
\frac{\alpha}{\beta^2}.
\] Asumiendo que \(\alpha\) es
conocido:
Demuestre que las distribuciones Bernoulli, Binomial, Multinomial, Poisson, Exponencial, Beta, Gamma y Normal pertenecen a la familia exponencial.
Sea \(p(y \mid \phi) = c(\phi) h(y) \exp { ( \phi \, t(y) ) }\) un modelo de la familia exponencial.
Sea \(\phi = g(\theta)\), donde
\(g\) es una función monótona de \(\theta\), y sea \(h\) su inversa, de modo que \(\theta = h(\phi)\). Si \(p_{\theta}(\theta)\) es la densidad de
probabilidad de \(\theta\), entonces la
densidad de \(\phi\) inducida por \(p_{\theta} (\theta)\) está dada por:
\[
p_{\phi}(\phi) = p_{\theta}(h(\phi)) \times \left| \frac{\text{d}
h}{\text{d} \phi} \right|.
\]
Jeffreys (1961) propuso un criterio para definir una distribución
previa no informativa para un parámetro \(\theta\) asociado a una distribución
muestral \(p(y \mid \theta)\). La
distribución previa de Jeffreys se define como:
\[
p_J(\theta) \propto \sqrt{I(\theta)}
\] donde la información esperada de Fisher está dada por:
\[
I(\theta) = -\textsf{E}_{y\mid\theta} \left(
\frac{\text{d}^2}{\text{d}\theta^2} \log p(y \mid \theta) \right).
\]
Considere una única observación proveniente de la distribución
\(x \mid \theta \sim \textsf{N}(\theta,
\theta)\), con \(\theta >
0\). Demuestre que la previa de Jeffreys para \(\theta\) está dada por
\[
p_J(\theta) \propto \frac{(2\theta + 1)^{1/2}}{\theta}.
\]
Sea \(y_1, \dots, y_n\) una
muestra i.i.d. proveniente de \(p(y \mid
\theta)\). Una vez observados los valores \(y_1, \dots, y_n\), la función de
log-verosimilitud está dada por
\[
\ell(\theta \mid y) = \sum_{i=1}^n \log p(y_i \mid \theta).
\] El valor \(\hat{\theta}\) que
maximiza \(\ell(\theta \mid y)\) es el
estimador de máxima verosimilitud (maximum likelihood
estimator, MLE). La curvatura negativa de la log-verosimilitud,
definida como
\[
J(\theta) = -\frac{\partial^2 \ell(\theta \mid y)}{\partial \theta^2},
\] mide la precisión del MLE y se conoce como información de
Fisher. En situaciones donde es difícil cuantificar información previa
mediante una distribución de probabilidad, algunos autores han propuesto
construir la distribución “previa” a partir de la verosimilitud, por
ejemplo, centrándola en el MLE \(\hat{\theta}\). Dado que el MLE no
representa una información previa genuina, se ajusta la curvatura de la
distribución previa para que contenga únicamente una \(n\)-ésima parte de la información contenida
en la verosimilitud, es decir,
\[
-\frac{\partial^2 \log p(\theta)}{\partial \theta^2} =
\frac{J(\theta)}{n}.
\] Esta distribución es conocida como previa de información
unitaria (Kass y Wasserman, 1995; Kass y Raftery, 1995), ya que su
cantidad de información es equivalente a la información promedio
aportada por una sola observación. Aunque no es una distribución previa
en el sentido estricto, puede interpretarse como la información previa
de alguien con conocimientos limitados pero precisos acerca de \(\theta\).
Se encuesta a \(n = 100\) personas seleccionadas al azar en una ciudad con una población significativamente mayor. Se registra \(y_i = 1\) si la persona \(i\) apoya la política y \(y_i = 0\) en caso contrario.
Suponga que su conocimiento previo sobre \(\theta\), la proporción de individuos que apoyan la pena de muerte en un país, se modela con una distribución \(\textsf{Beta}\) con media \(\textsf{E}(\theta) = 0.6\) y desviación estándar \(\textsf{DE}(\theta) = 0.3\).
Un ingeniero inspecciona un lote de piezas para control de calidad y analiza diez elementos seleccionados al azar. Históricamente, la proporción de artículos defectuosos \(\theta\) ha sido aproximadamente del 1% y rara vez ha superado el 2%.
Se desea estimar la probabilidad \(\theta\) de reincidencia en adolescentes con base en un estudio en el que se observaron \(n = 43\) individuos liberados de reclusión, de los cuales \(y = 15\) reincidieron en un período de 36 meses.
Hoff, P. D. (2009). A First Course in Bayesian Statistical Methods. Springer New York.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC.