¿Por Dónde Empezar?

Así como un niño debe primero aprender a equilibrarse con sus extremidades inferiores y, entonces, intentar caminar y, después, correr; hay ciertos esenciales para aproximarse al paradigma bayesiano en el análisis de datos.

Primero lo Primero

Los estadistas clásicos tienen desafíos aceptando la idea que información a priori sobre la probabilidad de la verdad es necesaria. Desde su punto de vista la verdad no es estocástica y, por lo tanto tratan de definir procedimientos con buenas propiedades para cada Verdad.

Desde los ojos bayesianos ésto es imposible, en lo general, y el “falso ídolo de la objetividad” ha llevado a muchos a malos entendidos.

Los bayesianos consideran a la información previa o priors como grados de convicción subjetivos. En algunos problemas éstos priors son muy importantes, pero van perdiendo su relevancia a medida que la cantidad de datos aumenta.

Los Esenciales

Al hacer análisis de datos desde la perspectiva bayesiana, uno siempre debe tener en cuenta las 3 fases clave del proceso:

Generar un modelo de probabilidad completo.
Condicionar en función a los datos observados.
- Generación de una distribución posterior dados los “datos observados” que se alimentan al modelo.
- Ésta será una distribución de probabilidad condicional de datos no observados, dado los datos observados.
Evaluar el ajuste del modelo y las implicaciones de la distribución posterior que resulte.

La idea central de la inferencia bayesiana es la cuantificación de la incertidumbre.

Notación General para Inferencia Estadística

Es importante recordar que se conoce como inferencia estadística al proceso de obtener conclusiones de datos numéricos sobre cantidades que no han sido observadas.

Parámetro: Por lo general representado con letras griegas, indica información proveniente de la población.
- Usualmente se utiliza la letra \(\theta\) (theta) para indicar parámetros no observados de la población.
Data: Se refiere a los datos observados.
- Se representan con \(y\).
Predicciones: Se refiere a cantidades no conocidas pero potencialmente observables.
- Se representan con: \(\widetilde{y}\).

Notación Geneal…Cont.

En resumen:

Letras griegas para parámetros.
Letras romanas minúsculas para escalares o vectores observadas u observables.
Letras romanas mayúsculas para matrices observadas u observables.

Inferencia Bayesiana

Las conclusiones sobre el parámetro \(\theta\) o los datos no observables \(\widetilde{y}\) son hechas en términos de probabilidad condicional del valor observado \(y\):

\[p(\theta|y)\] \[p(\widetilde{y}|y)\]

Todo ésto con la condición implícita en los valores conocidos de las covariables \(X\), también conocidas como variables predictoras o explicativas.

Notación en Probabilidad Bayesiana

Densidad de probabilidad condicional con los argumentos determinados en la fórmula: \(p(\cdot|\cdot)\) Distribución marginal: \(p(\cdot)\)

Los términos distribución y densidad pueden ser utilizados de forma intercambiable en la literatura.

Cuando se utiliza una distribución estándar, se usa una notación basada en el nombre de la distribución. Asumiendo que \(\theta\) tiene una distribución normal con media \(\mu\) y varianza \(\sigma^2\):

\[\theta \sim N(\theta|\mu, \sigma^2)\space \text{ ó }\space p(\theta) = N(\mu, \sigma^2)\]

Siendo aún más específicos, la misma idea puede expresarse como: \[p(\theta|\mu, \sigma^2) = N(\theta|\mu, \sigma^2)\]

La regla de Bayes

Para poder hacer declaraciones sobre la probabilidad de \(\theta\) dado \(y\), debemos comenzar con un modelo que provea una distribución de probabilidad conjunta para \(\theta\) y \(y\).

La densidad de ésta probabilidad conjunta puede ser escrita como un producto de dos densidades que, usualmente, son referidas como la distribución a priori \(p(\theta)\) y la distribución de muestreo \(p(y|\theta)\), respectivamente. \[p(\theta,y)=p(\theta)p(y|\theta)\]

Inferencia Bayesiana

Teorema de Bayes: \[p(\theta \mid y) = \frac{p(y \mid \theta) p(\theta)}{p(y)}\] Donde: \[p(\theta \mid y) = \text{Posteriori}\] \[p(\theta) = \text{Marginal o a Priroi.}\] \[p(y \mid \theta) = \text{Máxima Verosimilitud}\] \[p(y) = \text{Probabilidad de los datos observados.}\]

Inferencia Bayesiana…Cont.

Según el caso:

\[p(y) = \sum_{\theta} p(y \mid \theta) p(\theta) \space \space \space \text{Para el caso discreto}\] \[p(y) = \int p(y \mid \theta) p(\theta) d \theta \space \space \space \text{Para el caso continuo}\]

Al ser continuo se obvia y nos lleva a:

\[p(\theta \mid y) \propto p(y \mid \theta) p(\theta)\]

Hemofilia y Bayes

La hemofilia es una enfermedad recesiva dependiente del cromosoma X.
Un hombre que tiene el gen \(x\) afectado tendrá la enfermedad, mientras que una mujer con uno solo de sus genes \(x\) será solo portadora.

Hemofilia y Bayes…Cont.

Distribución Previa

Considerar a una mujer que tiene un hermano afectado con un gen para hemofilia y otro son la alteración.
Su padre no está afectado.
Mujer tiene una probabilidad del 50% de tener el gen “malo”.

Aproximación

La cantidad de interes no conocida: estado genético de la mujer tiene solo dos valores: Portadora del gen (\(\theta\) = 1) o no portadora del gen (\(\theta\) = 0).
Con base en la información previa provista, podemos expresar la distirbución previa para el disconicido de \(\theta\) como

\[P(\theta = 1)=P(\theta = 0) = \frac{1}{2}\]

Ejemplo de las gráficas en R (Gener)

Regresión Lineal Simple

Tiene como objeto estudiar cómo los cambios en una variable no aleatoria, afectan a una variable aleatoria, en el caso de existir una relación funcional entre ambas variables que puede ser establecida por una expresión lineal, es decir, su representación gráfica es una línea recta.

El modelo de regresión lineal simple supone que:

\[y_i = \beta_0 + β_1x_i + \epsilon_i\]

\(y_i\): representa el valor de la variable respuesta para la observación i-ésima.
\(x_i\): representa el valor de la variable explicativa para la observación i-ésima.
\(\epsilon_i\): representa el error para la observación i-ésima que se asume normal.

\[\epsilon_i ~ N(0,σ)\]

\(β_0\) y \(β_1\) son los coeficientes de regresión:
- \(β_0\): intercpetor.
- \(β_1\): pendiente.

Los parámetros a estimar son: \(β_0\),\(β_1\) y \(\sigma\).

El objetivo es obtener las estimaciones \(\widehatβ_0\) y \(\widehatβ_1\) de β_0 y β_1 para calcular la recta de regresión

\[\widehat y = \widehat β_0 + \widehat β_1x\] que se ajuste lo mejor posible a los datos.

Gráficas de regresión Lineal Simple…Cont.

El Modelo Lineal General (GLM)

Conceptos generales:

Tipos de variables:
- Variables predictoras: también conocidas como independientes, son aquellas que servirán para calcular una predicción y no se ven influenciadas por el modelo matemático.
- Variables a predecir: también conocidas como variables objetivo, son aquellas sobre las cuales se calcula la función de máxima verosimilitud en base a los valores de las variables predictoras.
Tipos de escalas:
- Métrica: tiempo de respuesta, tempreatura, altura, peso.
- Count o frecuencia: número de carros que pasan en una intersección durante una hora, número de encuestados que declaran simpatía por algún partido político. Es un tipo de variable métrica.
- Ordinal: grado escolar, lugar de llegada en una carrera.
- Nominal o categórica: nombre de las letras vocales, nombre de los colores.

Es importante identificar el tipo de escala con la que se está midiendo un fenómeno porque nos permitirá elegir adecuadamente una distribución al momento de calcular la función de máxima verosimilitud.

The Bayes Way

¿Por Dónde Empezar?

Primero lo Primero

Los Esenciales

Notación General para Inferencia Estadística

Notación Geneal…Cont.

Inferencia Bayesiana

Notación en Probabilidad Bayesiana

La regla de Bayes

Inferencia Bayesiana

Inferencia Bayesiana…Cont.

Hemofilia y Bayes

Hemofilia y Bayes…Cont.

Ejemplo de las gráficas en R (Gener)

Regresión Lineal Simple

Gráficas de regresión Lineal Simple…Cont.

El Modelo Lineal General (GLM)