Durante muchos años, tanto en el ambito acádemico como en el mundo de la estadística aplicada la distribución beta ha sido tratada con especial rezago en su definición y aplicación, dicho lo anterior esta entrada intenta dar una visión sobre la filosofía de la distribución y en especial darle una aplicación empirica para ver su potencial en el mundo real.
Parto de una afirmación, los mayores usos de esta distribución se dan en el plano del mundo bayesiano, sobre todo para el desarrollo de ciencias experimentales y la teoría de la decisión. Lo anterior no quiere decir que no tenga espacio en otros ambitos de la estadística, más si da un uso claro en ramas primordiales.
Por último reafirmando en palabras de David Robinson, es de vital importancia en el mundo de la ciencia de datos dado que ** empirical bayes (de donde parte el uso de la distribución beta) is especially well suited to the modern field of data science**. Sobre este autor se hablara más adelante.
Se parte de una antesala:
“La distribución beta difiere de las distribuciones continuas […] dado que solo se puede usar para describir variables aleatorias que tomen valores entre 0 y 1” Gutierrez (2010)1
Estos limites de intervalos son pieza fundamental para entender después del uso de parámetros y los posibles resultados que se pueden obtener sobre eventos estudiados.
Complementando la definición de Gutiérrez en 2013 los profesores Paul Johnson y Matt Beverlin la describieron de la siguiente manera
“La función de densidad beta es una forma muy versátil de representar resultados como proporciones o probabilidades”2
Los mismos autores reafirman la antesala sobre el uso de esta distribución al decir que “The Beta can be used to describe not only the variety observed across people, but it can also describe your subjective degree of belief (in a Bayesian sense)”3.
Más, la definición que a mi parecer logra definir mejor lo que es la beta, es aquella que dio David Robinson en 2017 en su libro Introduction to Empirical Bayes, donde la describe de la siguiente manera
“The beta distribution is good at representing a probability distribution of probabilities- that is, it represents all the possible values of a probability when we don´t know what that probability is.”4
Antes de entrar en el terreno de las aplicaciones desarrollare la matemáticas que hay detrás de ella.
Una variable aleatoria \(\mathrm{X}\) tiene distribución beta si su función de densidad está dada de la siguiente manera:
\[ \mbox{ Función Beta}=B(a,b)=\frac{\Gamma(a) \Gamma(b)}{\Gamma(a+b)}=\int_{0}^{1} u^{a-1}(1-u)^{b-1 }du \]
\[ f_{X}(x)=\frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}I_{(0,1)}(x) \mbox{ Dado los parámetros }a>0 \mbox{ y } b>0 \]
Visto lo anterior se puede decir que la Beta toma valores de \((1,1)\) en los parámetros \((a,b)\) pasa a ser una uniforme continua \(Unif(0,1)\)
Si \(\mathrm{X}\) es una variable aleatoria con distribución beta en los parámetros \((a,b)\) el valor esperado tiene la siguiente forma
\[ E(x)=\mu=\frac{a}{a+b} \]
Mientras que la varianza
\[ Varianza(x)=\frac{ab}{(a+b)^2(a+b+1)} \]
Aunque desarrollandola sería
\[ Varianza(x)=\frac{ab}{(a^2+2ab+b^2)(a+b+1)}=\frac{ab}{a^3+a^2+3a^2b+3ab^2+2ab+b^3+b^2} \] Aunque si lo quiere ver como un Modelo Lineal Generalizado(MLG) entonces la construcción sería
\[ Varianza(\mu)=\frac{b}{(a+b)(a+b+1)}\mu \]
Una demostración interesante que da Gutiérrez sobre la simetría para \(f(x)\) y \(f(1-x)\) donde sugiere que 1-X puede ser una distribución beta si \(\mathrm{X}\) se porta de la siguiente manera:
\[ X\sim Beta(a,b) \mbox{ entonces } Y=1-X \sim Beta(a,b) \]
Demostrando la distribución de \(\mathrm{Y}\) se tiene que \(y \in (0,1)\) \[ F_Y(y)=Pr(Y\le y)=Pr(1-X \le y) \]
\[ Pr(X\ge1-y)= \int_{1-y}^{1} \frac{x^{a-1}(1-x)^{b-1}}{B(a,b)}dx \] Haciendo un juego \(x= 1-u\)
\[ F_Y(y)=\int_{0}^{y} \frac{(1-u)^{a-1}u^{b-1}}{B(a,b)}dx \] y queda demostrado.
Un ejemplo de Robinson dice que el promedio de bateos esta dado por el número de hits(H) dividido sobre el número de turnos(AB)
\[ \mbox{Promedio de bateos}=\frac{H}{AB} \]
Observese que el promedio esta dado en el intervalo de porcentajes de 0 a 1. El promedio tipicoes del 27%, mientras que el 30% es considerado como excepcional.
Suponga que desea predecir el promedio de bateo de la temporada. Si se usa el promedio de bateo al inicio de temporada se dara cuenta que es una medida muy pobre, más a través de los calculos bayesianos se podría los éxitos en bateo. Suponga que el promedio de bateo en una temporada estan dados entre 21% y 36% .
Se parte del supuesto que la mejor manera de representar esto (hits de bateo dado el turno del bateo) es con una distribución binomial ya que cuenta el número de éxitos de un total, por lo tanto está es la mejor manera de representar una beta.
Lo primero que hay que representar es su promedio de bateo, el dominio del mismo está dado entre (0,1) como una probabilidad.
Ya se tiene una expectativa de que el promedio de bateo en una temporada es del 27%, pero el rango razonable en el cual se da un bateo en promedio esta entre 21% y el 35%. Esto representa la distribución beta donde los parámetros estan dados de la siguiente manera:
\[ \alpha=81 \\ \beta=219 \]
Ahora se desarrolla el gráfico de densidad de la distribución ‘prior’
La \(x\) representa la distribución de posibles bateos promedios mientras que la \(y\) representa la probabilidad de la densidad, la cual describe que tan probable es que el promedio de bateo caiga en un punto en particular, por lo tanto la \(y\) representa la probabilidad de la densidad de la distribución beta.
Por lo tanto al efectuar un hit el jugador se pueden actualizar las probabilidades y comenzar con una distribución previa para después seguir con una posterior.
\[ Beta(\alpha_0+Exitos,\beta_0+Fracasos) \] Por lo tanto si \(\alpha\) se incrementa uno (un éxito más) mientras que \(\beta\) no crece, entonces el promedio de la nueva distribución está dada por
\[ Beta(81+1,2019) \]
Ahora vease la distribución de la posterior de beta junto a la posterior después de un hit o cien hits después de 300 turnos de bateo
Dicho lo anterior para calcular la posterior del promedio de la beta será
\[ E(x)=\mu=\frac{a}{a+b} \] Así que después de 300 bateos , donde 100 son aciertos, mientras 200 fracasos, el nuevo valor de la distribución de la beta es
\[ E(x)=\frac{82+100}{82+100+219+200}=\frac{182}{601}=0.303 \] Teniendo presente que la inferior del estimativo está dado por
\[ \frac{100}{200+100}=0.333 \]
EL cual es más alto que el estimativo con que empezo la temporada
\[ \frac{81}{81+219}=0.27 \]
Esto da la convinación de la expectativa previa y las estimadas.
Se debe anexar una actualización de la beta a través de la binomial por lo que son matematicamente convenientes. Dicho lo anterio ver un promedio de bateos de \(\frac{100}{300}\) no es preciso sobre la realidad de los jugadores, a menos que se construya una previa en se pueda encontrar dichos resultados.
Simularemos diez millones de jugadores, con las expectativas previas \(Beta(81,219)\) y a cada uno de ellos se les dara la oportunidad de batear 300 veces
## # A tibble: 6 x 2
## true_average hits
## <dbl> <int>
## 1 0.289 88
## 2 0.268 83
## 3 0.290 101
## 4 0.300 79
## 5 0.266 84
## 6 0.302 94
Ahora se debe buscar los jugadores que realmente cumplieron el estimativo de \(\frac{100}{300}\)
## # A tibble: 6 x 2
## true_average hits
## <dbl> <int>
## 1 0.299 100
## 2 0.338 100
## 3 0.298 100
## 4 0.310 100
## 5 0.270 100
## 6 0.275 100
Ahora toca visualizar los promedios de bateo de estos \(\frac{100}{300}\) e identificar que tan bueno era el jugador mediano
Notese que los resultados de la previa no abrian existido bateadores con la forma \(\frac{100}{300}\), por lo cual fue necesario hacer las simulaciones y encontrar los resultados.
Lo anterior muestra que se esta actualizando la previa
La anterior gráfica de los valores verdaderos de bateo promedio, selecciona especificamente a los jugadores que han tenido records de \(60/300\), \(80/300\) y \(100/300\).
En la página data literacy podra encontrar el libro de Gutiérrez que cuenta de manera detallada los conceptos sobres las distribuciones.↩
El articulo sobre la distribución beta esta disponible aqui[^3]↩
Tomado del libro Empirical Bayes↩