Doreen Méndez, Ricardo González, Gener Avilés
Mayo 9, 2017
Así como un niño debe primero aprender a equilibrarse con sus extremidades inferiores y, entonces, intentar caminar y, después, correr; hay ciertos esenciales para aproximarse al paradigma bayesiano en el análisis de datos.
Los estadistas clásicos tienen desafíos aceptando la idea que información a priori sobre la probabilidad de la verdad es necesaria. Desde su punto de vista la verdad no es estocástica y, por lo tanto tratan de definir procedimientos con buenas propiedades para cada Verdad.
Desde los ojos bayesianos ésto es imposible, en lo general, y el “falso ídolo de la objetividad” ha llevado a muchos a malos entendidos.
Los bayesianos consideran a la información previa o priors como grados de convicción subjetivos. En algunos problemas éstos priors son muy importantes, pero van perdiendo su relevancia a medida que la cantidad de datos aumenta.
Al hacer análisis de datos desde la perspectiva bayesiana, uno siempre debe tener en cuenta las 3 fases clave del proceso:
La idea central de la inferencia bayesiana es la cuantificación de la incertidumbre.
Es importante recordar que se conoce como inferencia estadística al proceso de obtener conclusiones de datos numéricos sobre cantidades que no han sido observadas.
En resumen:
Las conclusiones sobre el parámetro \(\theta\) o los datos no observables \(\widetilde{y}\) son hechas en términos de probabilidad condicional del valor observado \(y\):
\[p(\theta|y)\] \[p(\widetilde{y}|y)\]
Todo ésto con la condición implícita en los valores conocidos de las covariables \(X\), también conocidas como variables predictoras o explicativas.
Los términos distribución y densidad pueden ser utilizados de forma intercambiable en la literatura.
Cuando se utiliza una distribución estándar, se usa una notación basada en el nombre de la distribución. Asumiendo que \(\theta\) tiene una distribución normal con media \(\mu\) y varianza \(\sigma^2\):
\[\theta \sim N(\theta|\mu, \sigma^2)\space \text{ ó }\space p(\theta) = N(\mu, \sigma^2)\]
Siendo aún más específicos, la misma idea puede expresarse como: \[p(\theta|\mu, \sigma^2) = N(\theta|\mu, \sigma^2)\]
Para poder hacer declaraciones sobre la probabilidad de \(\theta\) dado \(y\), debemos comenzar con un modelo que provea una distribución de probabilidad conjunta para \(\theta\) y \(y\).
La densidad de ésta probabilidad conjunta puede ser escrita como un producto de dos densidades que, usualmente, son referidas como la distribución a priori \(p(\theta)\) y la distribución de muestreo \(p(y|\theta)\), respectivamente. \[p(\theta,y)=p(\theta)p(y|\theta)\]
Teorema de Bayes: \[p(\theta \mid y) = \frac{p(y \mid \theta) p(\theta)}{p(y)}\] Donde: \[p(\theta \mid y) = \text{Posteriori}\] \[p(\theta) = \text{Marginal o a Priroi.}\] \[p(y \mid \theta) = \text{Máxima Verosimilitud}\] \[p(y) = \text{Probabilidad de los datos observados.}\]
Según el caso:
\[p(y) = \sum_{\theta} p(y \mid \theta) p(\theta) \space \space \space \text{Para el caso discreto}\] \[p(y) = \int p(y \mid \theta) p(\theta) d \theta \space \space \space \text{Para el caso continuo}\]
Al ser continuo se obvia y nos lleva a:
\[p(\theta \mid y) \propto p(y \mid \theta) p(\theta)\]
Distribución Previa
Aproximación
\[P(\theta = 1)=P(\theta = 0) = \frac{1}{2}\]
Tiene como objeto estudiar cómo los cambios en una variable no aleatoria, afectan a una variable aleatoria, en el caso de existir una relación funcional entre ambas variables que puede ser establecida por una expresión lineal, es decir, su representación gráfica es una línea recta.
El modelo de regresión lineal simple supone que:
\[y_i = \beta_0 + β_1x_i + \epsilon_i\]
\[\epsilon_i ~ N(0,σ)\]
Los parámetros a estimar son: \(β_0\),\(β_1\) y \(\sigma\).
El objetivo es obtener las estimaciones \(\widehatβ_0\) y \(\widehatβ_1\) de β_0 y β_1 para calcular la recta de regresión
\[\widehat y = \widehat β_0 + \widehat β_1x\] que se ajuste lo mejor posible a los datos.
Conceptos generales:
Es importante identificar el tipo de escala con la que se está midiendo un fenómeno porque nos permitirá elegir adecuadamente una distribución al momento de calcular la función de máxima verosimilitud.