La inferencia Bayesiana sobre el conjunto de parámetros \(\boldsymbol{\theta} = (\theta_1,\ldots,\theta_k)\) a partir de los datos \(\boldsymbol{y} = (y_1,\ldots,y_n)\) requiere que se especifique la distribución conjunta \(p(\boldsymbol{y}, \boldsymbol{\theta}) = p(\boldsymbol{y}\mid\boldsymbol{\theta})\,p(\boldsymbol{\theta})\), donde:
Se modela \(\boldsymbol{y}\) de manera jerárquica, modelando primero el comportamiento de \(\boldsymbol{\theta}\), y luego, modelando el comportamiento de \(\boldsymbol{y}\) dado \(\boldsymbol{\theta}\).
Una vez se observa \(\boldsymbol{y}\), ¿cómo se deberían llevar a cabo los procesos de inferencia, predicción y toma de decisiones de manera óptima?
La distribución posterior de \(\boldsymbol{\theta}\) se obtiene por medio del Teorema de Bayes: \[ p(\boldsymbol{\theta}\mid \boldsymbol{y}) = \frac{p(\boldsymbol{y}\mid\boldsymbol{\theta})\,p(\boldsymbol{\theta})}{\int_\Theta p(\boldsymbol{y}\mid\boldsymbol{\theta})\,p(\boldsymbol{\theta})\,\text{d}\boldsymbol{\theta}}\propto p(\boldsymbol{y}\mid\boldsymbol{\theta})\,p(\boldsymbol{\theta})\,, \] la cual caracteriza el estado de información actualizada acerca de \(\boldsymbol{\theta}\) bajo la evidencia empírica que proporciona \(\boldsymbol{y}\).
La distribución predictiva posterior de datos futuros \(\boldsymbol{y}^*\) se obtiene por medio de la expresión: \[ p(\boldsymbol{y}^*\mid\boldsymbol{y}) = \int_\Theta p(\boldsymbol{y}^*,\boldsymbol{\theta}\mid\boldsymbol{y})\,\text{d}\boldsymbol{\theta} = \int_\Theta p(\boldsymbol{y}^*\mid\boldsymbol{\theta})\,p(\boldsymbol{\theta}\mid\boldsymbol{y})\,\text{d}\boldsymbol{\theta}\,, \] siempre que no haya información sobre \(\boldsymbol{y}^*\) contenida en \(\boldsymbol{y}\) dado \(\boldsymbol{\theta}\).
Para tomar una decisión se debe especificar un conjunto de acciones factibles \(\mathcal{A}\) junto con una función de utilidad \(U(a,\boldsymbol{\theta})\) que cuantifique la utilidad (monetaria o de otro tipo) que se obtiene al elegir la acción \(a\in\mathcal{A}\) bajo un valor específico de \(\boldsymbol{\theta}\).
La decisión óptima consiste en elegir la acción \(a^*\) que maximice la utilidad esperada posterior: \[ a^* = \text{arg max}_{a\in\mathcal{A}} \textsf{E}(U(a,\boldsymbol{\theta})\mid\boldsymbol{y}) = \text{arg max}_{a\in\mathcal{A}} \int_\Theta U(a,\boldsymbol{\theta})\,p(\boldsymbol{\theta}\mid\boldsymbol{y})\,\text{d}\boldsymbol{\theta}\,. \]
Suponga que \(y_1,\ldots,y_n\) son variables aleatorias y que \(\boldsymbol{\theta}\) es el parámetro que caracteriza el mecanismo aleatorio bajo el cual se generan estas variables.
Las variables aleatorias \(y_1,\ldots,y_n\) se denominan condicionalmente independientes dado \(\boldsymbol{\theta}\), si \[ p(y_1,\ldots,y_n\mid\boldsymbol{\theta}) = p(y_1\mid\boldsymbol{\theta})\times\ldots\times p(y_n\mid\boldsymbol{\theta})\,, \] para todo \(y_i\in\mathcal{Y}\), con \(i=1,\ldots,n\), y todo \(\boldsymbol{\theta}\in\Theta\).
Si \(y_1,\ldots,y_n\) son condicionalmente independientes dado \(\boldsymbol{\theta}\), entonces \[ \textsf{Pr}(y_1\in A_1,\ldots,y_n\in A_n\mid\boldsymbol{\theta}) = \textsf{Pr}(y_1\in A_1\mid\boldsymbol{\theta})\times\ldots\times\textsf{Pr}(y_n\in A_n\mid\boldsymbol{\theta})\,, \] para cualquier colección de conjuntos \(A_1,\ldots,A_n\).
(Ejercicio.) Además, \[ \textsf{Pr}(y_i\in A_i\mid y_j\in A_j,\boldsymbol{\theta}) = \textsf{Pr}(y_i\in A_i\mid\boldsymbol{\theta})\,. \]
Si las variables aleatorias \(y_1,\ldots,y_n\) se generan a partir de un mecanismo aleatorio común, entonces \[ p(\boldsymbol{y}\mid\boldsymbol{\theta}) = \prod_{i=1}^n p(y_i\mid\boldsymbol{\theta})\,, \] en cuyo caso se dice que \(y_1,\ldots,y_n\) son condicionalmente independientes e idénticamente distribuidas, lo que se denota con \[ y_i\mid\boldsymbol{\theta} \stackrel{\text{iid}}{\sim} p(y_i\mid\boldsymbol{\theta})\,,\qquad i=1,\ldots,n\,. \]
Las variables aleatorias \(y_1,\ldots,y_n\) se denominan intercambiables si su distribución marginal conjunta es simétrica, en el sentido de que cualquier permutación del orden en el que se etiqueten las variables deja su estructura probabilística inalterada.
Sea \(p(y_1,\ldots,y_n)\) la distribución marginal de \(y_1,\ldots,y_n\). Si \[ p(y_1,\ldots,y_n) = p(y_{\pi(1)},\ldots,y_{\pi(n)})\,, \] para toda permutación \(\pi(\cdot)\) de \(\{1,\ldots,n\}\), entonces se dice que \(y_1,\ldots,y_n\) son intercambiables.
La intercambiabilidad indica que el orden en que se observan o recopilan los datos no afecta la distribución de probabilidad utilizada para modelar los datos.
(Ejercicio.) Si las variables aleatorias \(y_1,\ldots,y_n\) son condicionalmente independientes dado \(\boldsymbol{\theta}\), entonces \(y_1,\ldots,y_n\) son intercambiables.
Sea \(y_1,\ldots,y_n\) una secuencia de variables aleatorias definida sobre el mismo espacio de resultados \(\mathcal{Y}\). Si \(y_1,\ldots,y_n\) es intercambiable para cualquier \(n\), entonces la distribución marginal de \(y_1,\ldots,y_n\) se puede expresar como \[ p(y_1,\ldots,y_n) = \int_\Theta \left[\prod_{i=1}^n p(y_i\mid\boldsymbol{\theta})\right]\,p(\boldsymbol{\theta})\,\text{d}\boldsymbol{\theta}\,, \] para algún conjunto de parámetros \(\boldsymbol{\theta}\), alguna distribución previa \(p(\boldsymbol{\theta})\), y alguna distribución muestral común \(p(y_i\mid\boldsymbol{\theta})\), para \(i=1,\ldots,n\).
El teorema de De Finetti justifica el uso del supuesto de independencia condicional en la formulación del modelo y permite utilizar distribuciones de probabilidad simples para modelar los datos condicionalmente.
\(y_1, \dots, y_n \mid \boldsymbol{\theta}\) son i.i.d. y \(\theta \sim p(\theta)\) si y sólo si \(y_1, \dots, y_n\) son intercambiables para todo \(n\).
La condición de intercambiabilidad de \(Y_1, \dots, Y_n\) para todo \(n\) es razonable en escenarios como experimentos repetibles, muestreo con reemplazo de una población finita, muestreo sin reemplazo de una población infinita o muestreo sin reemplazo de una población finita significativamente mayor (\(N \gg n\)).
Sean \(x\), \(y\) y \(z\) variables aleatorias con función de densidad conjunta (discreta o continua) dada por \(p(x,y,z) \propto p(x,z) \, p(y,z) \, p(z)\). Muestre que:
Sean \(A\), \(B\) y \(C\) tres eventos. Suponga que \(A\) y \(B\) son condicionalmente independientes, dado \(C\). Muestre que:
Demuestre que para cualquier par de conjuntos \(F\) y \(G\), la probabilidad de su unión satisface
la desigualdad:
\[
\textsf{Pr}(F \cup G) \geq \max\{\textsf{Pr}(F), \textsf{Pr}(G)\}.
\]
Demuestre que si \(y_1,\ldots,y_n\) son condicionalmente independientes dado \(\boldsymbol{\theta}\), entonces \[ \textsf{Pr}(y_1\in A_1,\ldots,y_n\in A_n\mid\boldsymbol{\theta}) = \textsf{Pr}(y_1\in A_1\mid\boldsymbol{\theta})\times\ldots\times\textsf{Pr}(y_n\in A_n\mid\boldsymbol{\theta})\,, \] para cualquier colección de conjuntos \(A_1,\ldots,A_n\), y además, \[ \textsf{Pr}(y_i\in A_i\mid y_j\in A_j,\boldsymbol{\theta}) = \textsf{Pr}(y_i\in A_i\mid\boldsymbol{\theta})\,. \]
Sea \(y_1\) y \(y_2\) variables condicionalmente i.i.d. con distribución Bernoulli de parámetro \(\theta\), es decir, \(y_1, y_2 \mid \theta \sim \textsf{Ber}(\theta)\), y suponga que \(\theta \sim \textsf{Beta}(\eta, \eta)\).
Demuestre que si las variables aleatorias \(y_1,\ldots,y_n\) son condicionalmente independientes dado \(\boldsymbol{\theta}\), entonces \(y_1,\ldots,y_n\) son intercambiables.
Suponga que \(x, y \mid z \sim \textsf{N}(z,1)\) y que \(z \sim \textsf{N}(0,1)\). Demuestre que \(x\) y \(y\) son independientes condicionalmente dado \(z\), pero no son marginalmente independientes.
Suponga que \(x \to y \to z\) forma una cadena de Markov, es decir, la distribución condicional de \(z\) dado \(x\) y \(y\) depende únicamente de \(y\). Demuestre que esto implica que \(x\) y \(z\) son condicionalmente independientes dado \(y\).
Sea \(\boldsymbol{y} = (y_1, \dots, y_n)\) un vector aleatorio tal que \(\boldsymbol{y} \sim \textsf{N}_n(\boldsymbol{0}, \Sigma)\), donde \(\textsf{Var}(y_i) = 1\) para \(i = 1, \dots, n\) y \(\textsf{E}(y_i y_j) = \rho\) para \(i \neq j\), con \(\rho > 0\). Demuestre que en este caso, las variables \(y_1, \dots, y_n\) son intercambiables, pero no son independientes idénticamente distribuidas.
Un instituto de investigación está estudiando las preferencias electorales de una población a través de encuestas. Suponga que cada persona entrevistada vota por el candidato A con una probabilidad desconocida \(\theta\). Se asume que los votos de los encuestados, \(y_1, \dots, y_n\), son intercambiables.
Hoff, P. D. (2009). A First Course in Bayesian Statistical Methods. Springer New York.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC.