Se quiere estimar la prevalencia de una enfermedad \(\theta\) (proporción de la población que padece la enfermedad) de una ciudad.
El espacio de parámetros (conjunto de posibles valores del parámetro) es \(\Theta = (0,1)\).
Se examina una muestra aleatoria de \(n=20\) individuos para observar el número de personas infectadas en la muestra \(y\).
El espacio de observaciones (conjunto de posibles conjuntos de datos) es \(\mathcal{Y} = \{0,\ldots,n\}\).
La distribución muestral (sampling distribution) \(p(y\mid\theta)\) es el mecanismo aleatorio que especifica cómo se genera \(y\) dado un valor específico de \(\theta\).
Antes de realizar el proceso de observación, \(y\) es una variable aleatoria tal que \[ y\mid\theta\sim\textsf{Bin}(n,\theta) \qquad\Longleftrightarrow\qquad p(y\mid\theta) = \binom{n}{y}\theta^y(1-\theta)^{n-y} \]
La distribución previa (prior distribution) \(p(\theta)\) es el mecanismo aleatorio que especifica el estado de información acerca de \(\theta\) externo al conjunto de datos \(y\).
\(\theta\) es una variable aleatoria.
La formulación de \(p(\theta)\) es fundamental, a partir de otros estudios o de la opinión de expertos.
Se acostumbra a usar distribuciones con una forma matemática conveniente.
Se recomienda emplear distribuciones difusas (distribuciones aproximadamente uniformes en el espacio de parámetros) cuando no se dispone de información previa acerca de \(\theta\).
Se representa el estado de información previo acerca de \(\theta\) por medio de la familia de distribuciones Beta: \[ \theta\sim\textsf{Beta}(a,b) \qquad\Longleftrightarrow\qquad p(\theta) = \frac{\Gamma(a+b)}{\Gamma(a)\,\Gamma(b)}\,\theta^{a-1}(1-\theta)^{b-1} \] donde \(a\) y \(b\) son cantidades fijas conocidas que se conocen como hiperparámetros (hyperparameters).
Usando \(a=b=1\) se tiene que \(p(\theta) = 1\) para todo \(0<\theta<1\), i.e., no se favorece ningún valor de \(\theta\) a priori.
La inferencia estadística consiste en aprender (disminuir la incertidumbre) acerca de los parámetros (características) \(\boldsymbol{\theta}=(\theta_1,\ldots,\theta_k)\) de una población (proceso generativo) a partir de una fuente de información (conjunto de datos) \(\boldsymbol{y}=(y_1,\ldots,y_n)\).
La distribución posterior (posterior distribution) \(p(\theta\mid y)\) es el mecanismo aleatorio que especifica el estado de información actualizado acerca de \(\theta\) después de observar \(y\).
Después de realizar el proceso de observación, \(y\) es una cantidad fija.
El teorema de Bayes es el método racional óptimo que garantiza la coherencia y consistencia lógica para actualizar el estado de información acerca de \(\boldsymbol{\theta}\) de acuerdo con la evidencia empírica contenida en \(\boldsymbol{y}\): \[ p(\boldsymbol{\theta}\mid \boldsymbol{y}) = \frac{p(\boldsymbol{\theta},\boldsymbol{y})}{p(\boldsymbol{y})} = \frac{p(\boldsymbol{y}\mid\boldsymbol{\theta})\,p(\boldsymbol{\theta})}{\int_\Theta p(\boldsymbol{y}\mid\boldsymbol{\theta})\,p(\boldsymbol{\theta})\,\text{d}\boldsymbol{\theta}}\propto p(\boldsymbol{y}\mid\boldsymbol{\theta})\,p(\boldsymbol{\theta}). \]
La distribución posterior \(p(\boldsymbol{\theta}\mid\boldsymbol{y})\) es función de \(\boldsymbol{\theta}\) una vez que se observa \(\boldsymbol{y}\).
El proceso de aprendizaje inductivo mediante el teorema de Bayes se conoce como inferencia Bayesiana.
El teorema de Bayes no determina nuestro estado de información, sino cómo se debe actualizar al incorporar nueva evidencia.
R. A. Fisher popularizó esta idea y la llamó verosimilitud (likelihood), \[ \ell(\boldsymbol{\theta}) = c\,p(\boldsymbol{y}\mid\boldsymbol{\theta}), \] donde \(c\) es una constante positiva arbitraria.
La distribución marginal (marginal distribution) de \(\boldsymbol{y}\) dada por \[ p(\boldsymbol{y}) = \int_\Theta p(\boldsymbol{y}\mid\boldsymbol{\theta})\,p(\boldsymbol{\theta})\,\text{d}\boldsymbol{\theta} \] es un promedio ponderado (mezcla) de distribuciones muestrales de \(\boldsymbol{y}\) dado \(\boldsymbol{\theta}\), ponderadas por la distribución previa \(p(\boldsymbol{\theta})\).
\(p(\boldsymbol{y})\) es una cantidad constante respecto a \(\boldsymbol{\theta}\) que permite normalizar la distribución posterior \(p(\boldsymbol{\theta}\mid \boldsymbol{y})\).
El teorema de Bayes se puede escribir como \[ p(\boldsymbol{\theta}\mid \boldsymbol{y}) \propto \ell(\boldsymbol{\theta}\mid\boldsymbol{y})\,p(\boldsymbol{\theta}) \qquad \Longleftrightarrow \qquad \log p(\boldsymbol{\theta}\mid \boldsymbol{y}) = \log \ell(\boldsymbol{\theta}\mid\boldsymbol{y}) + \log p(\boldsymbol{\theta}) + c \] donde \(c\) es una constante positiva.
Considere el modelo: \[ \begin{align*} y\mid\theta &\sim \textsf{Binomial}(n,\theta)\\ \theta &\sim \textsf{Beta}(a,b) \end{align*} \] donde \(y\in\mathcal{Y}=\{1,\ldots,n\}\), \(\theta\in\Theta=(0,1)\) y \(a = b = 1\).
Bajo este modelo la distribución posterior de \(\theta\) es \[ \theta\mid y\sim\textsf{Beta}(a+y,b+n-y) \qquad\Longleftrightarrow\qquad p(\theta\mid y) = \frac{\Gamma(a+b+n)}{\Gamma(a+y)\,\Gamma(b+n-y)}\,\theta^{a+y-1}(1-\theta)^{b+n-y-1} \] dado que \[ \begin{align*} p(\theta\mid y) &\propto p(y\mid\theta)\,p(\theta) \\ &= \binom{n}{y}\theta^y(1-\theta)^{n-y} \cdot \frac{\Gamma(a+b)}{\Gamma(a)\,\Gamma(b)}\,\theta^{a-1}(1-\theta)^{b-1} \\ &\propto \theta^{a+y-1}(1-\theta)^{b+n-y-1} \\ \end{align*} \] lo que corresponde al núcleo (kernel; función de densidad sin la constante de normalización) de una distribución Beta con parámetros \(a_n = a+y\) y \(b_n = b+n-y\).
Si se observa que un solo individuo de la muestra está infectado (\(y=1\)), entonces la distribución posterior de \(\theta\) es \(\theta\mid y \sim \textsf{Beta}(2,20)\).
La distribución posterior \(p(\theta \mid y)\) proporciona un marco para inferir y actualizar el conocimiento sobre \(\theta\).
La distribución posterior es más concentrada que \(p(\theta)\) porque combina la información de los datos con la distribución previa, por lo que contiene más información que \(p(\theta)\) por sí sola.
La distribución posterior permite cuantificar cualquier característica de \(\theta\) incorporando la evidencia proporcionada por los datos, por ejemplo:
Tendencia central: \[ \textsf{E}(\theta\mid\ y) = \int_\Theta \theta \,p(\theta\mid y)\,\text{d}\theta = \frac{a_n}{a_n+b_n} = 0.0909. \]
Variabilidad: \[ \textsf{Var}(\theta\mid\ y) = \int_\Theta (\theta - \textsf{E}(\theta\mid\ y))^2\,p(\theta\mid y)\,\text{d}\theta = \frac{a_n\,b_n}{(a_n+b_n)^2(a_n+b_n+1)} = 0.0036. \]
Probabilidad: \[ \textsf{P}(\theta < 0.1\mid y) = \int_0^{0.1} p(\theta\mid y)\,\text{d}\theta = 0.283. \]
Intervalo de credibilidad al 95%: \[ (\theta\mid y)_{0.025} = 0.0117 \quad\text{y}\quad (\theta\mid y)_{0.975} = 0.6353. \]
Es recomendable calcular la distribución posterior para una amplia gama de valores de los hiperparámetros con el propósito de llevar a cabo un análisis de sensibilidad, permitiendo evaluar la influencia de distintas especificaciones previas en los resultados inferenciales.
Una estimación clásica de \(\theta\) es la proporción muestral de personas infectadas \(\bar{y} = y/n\).
Si \(y = 1\), la estimación resulta en \(\bar{y} = 1/20 = 0.05\).
Una manera habitual de cuantificar la incertidumbre de una estimación es a través de un intervalo de confianza.
Un intervalo de confianza del 95% ampliamente utilizado para una proporción poblacional \(\theta\) es: \[ \bar{y} \pm 1.96 \sqrt{\frac{\bar{y}(1 - \bar{y})}{n}} = 0.05 \pm 0.0955. \]
Este intervalo posee una cobertura frecuentista asintóticamente correcta; sin embargo, esta propiedad no se conserva en muestras pequeñas.
La probabilidad es una rama de las Matemáticas que se dedica a la cuantificación de la incertidumbre.
La asignación de probabilidades se restringe a fenómenos repetibles bajo condiciones idénticas.
Se define \(\textsf{P}(A)\) como la frecuencia relativa en el límite asociada con la ocurrencia del evento \(A\).
Solo se aplica a eventos intrínsecamente repetibles.
La probabilidad se entiende como una propiedad del fenómeno que se estudia.
No es posible asignar probabilidades sin hacer supuestos que dependan del estado de información.
Se define \(\textsf{P}(A\mid\mathcal{B})\) como la plausibilidad (degree of belief; evidencia o cantidad de información) a favor del estatus verdadero del evento \(A\), condicional en la información contenida en \(\mathcal{B}\).
Todas las formas de incertidumbre son cuantificables.
La probabilidad se refiere a estados mentales sobre el mundo y no al mundo per se.
La inferencia Bayesiana es subjetiva porque depende del estado de información del analista, pero también requiere juicio científico para especificar la verosimilitud.
Las probabilidades permiten representar cuantitativamente un conjunto de creencias racionales, estableciendo así una relación entre la probabilidad y la información.
Suponga que, dado \(\theta = i\), la variable \(y\) sigue una distribución normal con media \(i\) y desviación estándar \(\sigma\), para \(i = 1,2\). Además, suponga que \(\textsf{Pr}(\theta = 1) = \textsf{Pr}(\theta = 2) = 0.5\).
Considere dos urnas con diferentes proporciones de balotas de colores. La urna \(C\) contiene un \(60\%\) de balotas verdes y un \(40\%\) de balotas rojas, mientras que la urna \(S\) contiene un \(40\%\) de balotas verdes y un \(60\%\) de balotas rojas. Se lanza una moneda para determinar de qué urna se extraerá una balota: si la moneda cae cara, se selecciona de la urna \(C\), y si cae sello, se selecciona de la urna \(S\). Defina la variable \(x\) como \(x = 1\) si la moneda cae cara y \(x = 0\) si cae sello, y la variable \(y\) como \(y = 1\) si la balota extraída es verde y \(y = 0\) si es roja.
Sea \(y \mid x \sim \textsf{Poisson}(\theta)\) y \(\theta \sim \textsf{Exp}(a)\). ¿Cuál es la distribución marginal de \(y\)?
Sea \(E\) el evento en el que un ciclista profesional seleccionado al azar ha utilizado una sustancia prohibida y \(F\) el evento en el que da positivo en la prueba de dicha sustancia. La prueba tiene baja sensibilidad y alta especificidad, lo que significa que \(\textsf{Pr}(F \mid E) = 0.64\) y \(\textsf{Pr}(F^C \mid E^C) = 0.95\). Suponga que el 23% de los ciclistas usan la sustancia prohibida, es decir, \(\textsf{Pr}(E) = 0.23\), y que un atleta seleccionado al azar da positivo en la prueba. ¿Cuál es la probabilidad de que realmente haya utilizado la sustancia? Además, represente gráficamente \(\textsf{Pr}(E \mid F)\) como función de \(\textsf{Pr}(E)\) mientras \(\textsf{Pr}(E)\) varía de 0 a 1.
El número de partículas emitidas, \(Y\), por una muestra de roca depende de la cantidad desconocida \(\theta\) de material radiactivo en la muestra. Dado \(\theta\), el número de partículas sigue una distribución de Poisson. Se sabe que la roca pertenece a uno de tres tipos posibles: \(A\), \(B\) o \(C\), cada uno asociado con un valor específico de \(\theta\), es decir, \(\theta \in \{\theta_A, \theta_B, \theta_C\}\), donde \(\theta_A = 1.1\), \(\theta_B = 3.2\) y \(\theta_C = 4.5\).
En general, los estadísticos tienden a tener personalidades tímidas con mayor frecuencia que los economistas. Para cuantificar esta observación, suponga que el 80% de los estadísticos son tímidos, mientras que solo el 15% de los economistas presentan esta característica. En las conferencias de econometría, los asistentes suelen ser casi exclusivamente economistas y estadísticos, con una predominancia de economistas. Se modela esta situación asumiendo que el 90% de los participantes son economistas, mientras que el 10% restante son estadísticos.
Suponga que usted, como físico, asiste a una conferencia de
econometría y entabla conversación con la primera persona que conoce al
azar, descubriendo que esta persona es tímida. El objetivo es demostrar
que la probabilidad condicional \(p\)
de que esta persona sea estadística, dados estos datos y antecedentes,
es aproximadamente del 37%. Defina las siguientes probabilidades: \(St\): “la persona es estadística”, \(E\): “la persona es economista” y \(Sh\): “la persona es tímida”. Muestre que
la razón de probabilidades condicionales satisface la siguiente
relación:
\[
\frac{ \textsf{Pr}(St \mid Sh) }{ \textsf{Pr}(E \mid Sh) } = \frac{
\textsf{Pr}(St) }{ \textsf{Pr}(E) } \cdot \frac{ \textsf{Pr}(Sh \mid St)
}{ \textsf{Pr}(Sh \mid E) }\,.
\]
Demuestre que la razón de probabilidades posterior \(o\) a favor de \(St\) sobre \(E\), dados los datos observados, es \(o = \frac{16}{27} \approx 0.593\).
Muestre que la probabilidad buscada es \(p = \frac{o}{1 + o} = \frac{16}{43} \approx
0.372\).
Alguien argumenta: “Esta probabilidad no puede ser correcta; el 80% de los estadísticos son tímidos, mientras que solo el 15% de los economistas lo son. Por lo tanto, la probabilidad de que esté hablando con un estadístico debería ser superior al 50%”. Explique por qué este razonamiento es incorrecto y por qué \(p\) debería ser menor del 50%.
Suponga que un paciente nuevo acude a usted, un médico, en 1986 para realizarse la prueba del VIH. En esa época, la prueba de detección estándar utilizada era el ensayo inmunoabsorbente ligado a enzimas (ELISA, Enzyme-Linked ImmunoSorbent Assay). Defina \(B\) como el evento “el paciente es VIH positivo” y \(A\) como el evento “ELISA indica que el paciente es VIH positivo”. La prevalencia del VIH en personas similares a este paciente en 1986 era \(p = 0.01\), y la prueba ELISA tenía una sensibilidad de \(\epsilon = 0.95\) (probabilidad de que la prueba identifique correctamente a una persona con VIH) y una especificidad de \(\pi = 0.98\) (probabilidad de que la prueba identifique correctamente a una persona sin VIH).
En el contexto del ejemplo motivacional sobre la prevalencia de una enfermedad, considere las siguientes distribuciones previas para \(\theta\): \(\theta \sim \textsf{Beta}(2,20)\), \(\theta \sim \textsf{Beta}(1,1)\) y \(\theta \sim \textsf{Beta}(1/2,1/2)\).
Considere la siguiente distribución conjunta de categorías ocupacionales de padres e hijos:
Ocupación del padre / Ocupación del hijo | Agricultura | Operarios | Artesanos | Ventas | Profesionales |
---|---|---|---|---|---|
Agricultura | 0.018 | 0.035 | 0.031 | 0.008 | 0.018 |
Operarios | 0.002 | 0.112 | 0.064 | 0.032 | 0.069 |
Artesanos | 0.001 | 0.066 | 0.094 | 0.032 | 0.084 |
Ventas | 0.001 | 0.018 | 0.019 | 0.010 | 0.051 |
Profesionales | 0.001 | 0.029 | 0.032 | 0.043 | 0.130 |
Esta tabla representa la probabilidad conjunta de cada combinación de ocupación entre padres e hijos. Utilizando esta distribución conjunta, calcule lo siguiente:
Sea \(X \sim \textsf{Exp}(\lambda)\), donde \(\textsf{E}(X) = 1 / \lambda\). ¿Cuál es la función de masa de probabilidad de \(Y = \lfloor X \rfloor\) (el mayor entero menor o igual que \(X\))?
Sea \(Y = \frac{1}{X}\), donde \(X\) es una variable aleatoria con distribución Gamma con parámetros \(a\) y \(b\), de manera que \(\textsf{E}(X) = \frac{a}{b}\).
\(Y = \exp(X)\), donde \(X\) es una variable aleatoria con distribución normal de media \(\mu\) y varianza \(\sigma^2\).
Demuestre que si \(X \sim \textsf{Exp}(\lambda)\), entonces:
En ambos casos, encuentre la función de densidad de \(Y\) y calcule la media y la varianza.
Sea \(X\) una variable aleatoria con distribución uniforme en el intervalo \((0, 1)\). Determine la distribución de \(Y = g(X) = \sqrt{X}\).
Sea \(X_1\) y \(X_2\) dos variables aleatorias independientes tales que \(X_i \sim \textsf{Gamma}(a_i, b)\) para cualquier \(a_1, a_2, b > 0\). Defina \(Y = \frac{X_1}{X_1 + X_2}\) y \(Z = X_1 + X_2\).
Sean \(X_1\) y \(X_2\) dos variables aleatorias independientes con distribución normal estándar. Determine la distribución conjunta de \(Y_1 = X_1 + X_2\) y \(Y_2 = X_1 - X_2\).
Considere tres variables aleatorias independientes \(X_1, X_2, X_3\) tales que \(X_i \sim \textsf{Gamma}(a_i, b)\). Defina
el vector \(\boldsymbol{Y} = (Y_1, Y_2,
Y_3)\) como:
\[
\boldsymbol{Y} = \left( \frac{X_1}{X_1 + X_2 + X_3}, \frac{X_2}{X_1 +
X_2 + X_3}, \frac{X_3}{X_1 + X_2 + X_3} \right).
\]
Sea \(Y_1\) y \(Y_2\) dos variables aleatorias independientes con \(\textsf{E}(Y_i) = \mu_i\) y \(\textsf{Var}(Y_i) = \sigma_i^2\). Utilizando la definición de valor esperado y varianza, calcule las siguientes cantidades, donde \(a_1\) y \(a_2\) son constantes dadas:
Sea \(X\) una variable aleatoria con valor esperado \(\textsf{E}(X)\) y sea \(Y\) cualquier variable aleatoria definida en el mismo espacio de probabilidad. Mostrar que \[ \textsf{E}(X) = \textsf{E}(\textsf{E}(X | Y))\,. \]
Sea \(X\) una variable aleatoria con varianza \(\textsf{Var}(X)\) y sea \(Y\) cualquier variable aleatoria definida en el mismo espacio de probabilidad. Mostrar que \[ \textsf{Var}(X) = \textsf{E}(\textsf{Var}(X \mid Y)) + \textsf{Var}(\textsf{E}(X \mid Y)\,. \]
Hoff, P. D. (2009). A First Course in Bayesian Statistical Methods. Springer New York.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC.