Inferir \(\Leftarrow\) Datos tengan cierta distribución
- Datos categóricos: tres distribuciones clave
- Binomial
- Multinomial
- Poisson
Julio 13, 2017
Inferir \(\Leftarrow\) Datos tengan cierta distribución
\(n\) ensayos iid. ~ Bernoulli: \(Y_1,...,Y_n\)
Probabilidad de éxito: \(P(Y_i=1) = \pi\), para \(i=1,...,n\)
El número total de éxitos es \(Y:= \sum_{i=1}^n Y_i \in bin(n,\pi)\). \(Y\) tiene rango \(\{ 0,...,n \}\) distribución binomial con índice \(n\) y parámetro \(\pi\).
Función de probabilidad: \[P_Y(y)= \binom{n}{y} \pi^y (1-\pi)^{n-y} \qquad,\enspace y=0,...,n\]
Esperanza y Varianza Bernoulli: \[ E(Y_i)=\pi \qquad y \qquad Var(Y_i)=\pi(1-\pi) \]
Esperanza y Varianza Binomial: \[ E(Y)=n\pi \qquad y \qquad Var(Y)=n\pi(1-\pi) \]
Kurtosis \[\frac{E(Y-\mu)^3}{\sigma^3}=\frac{1-2\pi}{\sqrt{n\pi(1-\pi)}}\]
Fuente: http://www.boost.org/doc/libs/1_52_0/libs/math/doc/sf_and_dist/graphs/binomial_pdf_2.png
La distribución binomial converge a la normal cuando n aumenta, \[n*min(\pi, 1-\pi) \geq 5\]
\(n\) ensayos iid. con \(c\) posibles resultados (categorías)
Sea \(n_j\) el número de ensayos con resultado en la categoría \(j\), donde \(1 \leq n_j \leq n\); \(1 \leq j \leq c\) y \(n=\sum n_k\).
Sea \(\pi_k\) la probabilidad de que en cualquier ensayo el resultado esté en la categoría \(j\). El vector \((n_1,...,n_c)\) tiene distribución multinomial con función de probabilidad de mas dada por, \[p(n_1,...,n_c)=\frac{n!}{n_1!n_2!...n_c!}\pi_1^{n_1} \pi_2^{n_2}...\pi_c^{n_c}\]
\(E(n_j)=n\pi_j, \qquad\) \(Var(n_j)=n\pi_j(1-\pi_j), \qquad\) \(Cov(n_j,n_k)=-n\pi_j\pi_k\)
Cada \(n_j\) es binomial. Multinomial en genómica
Sea \(Y\) el número eventos que ocurren de manera aleatoria e independiente sobre tiempo o espacio en periodos o regiones disjuntas. Sea \(\mu\) el número de eventos promedio en un periodo.
La variable \(Y\) se distribuye Poisson con distribución de probabilidad, \[p(y)=\frac{e^{-\mu}\mu^y}{y!}, \qquad y=0,1,2,...\]
\(E(Y)=Var(Y)= \mu, \qquad\) \(E(Y-\mu)^3/\sigma^3=1/\sqrt{\mu}\)
Suma de variables Poisson es Poisson cuya media es la suma de las medias de cada Poisson en cuestión.
Fuente: http://inspirehep.net/record/868729/files/examples_Poisson_distribution.png
Suponga \(n \rightarrow \infty\) y \(p \rightarrow 0\) mientras \(np=\mu\) se mantiene constante. Se puede aproximar \[P_Y(y)= \binom{n}{y} \pi^y (1-\pi)^{n-y} \approx \frac{e^{-\mu}\mu^y}{y!}\]
Sean \(X_1,...,X_k\) poisson independientes, donde \(X_i \in Pois(\lambda_i)\). La distribución condicional del vector \((X_1,...,X_k)\) dado \(n=\sum X_i\) se distribuye \(Mult(n,\pi)\), donde \(\pi=(\pi_1,...,\pi_k)\) y \(\pi_j=\frac{\lambda_j}{\sum \lambda_i}\).
Esto implica que la distribución no-condicional de \((X_1,...,X_k)\) se puede factorizar en el producto de una distribución Poisson (\(n\)) y una multinomial (\(X|n\))
La función de verosimilitud se descompone tambien en dos factores uno para \(\sum \lambda_j\) y otro para \(\pi\). Son independientes \(n\) y \(\pi\). Cualquier estimación sobre \(\pi\) puede será la misma si se considera \(n\) aleatoria o fija.
Ejemplo: # llegadas a Urgencias por \(k\) razones.
(Agresti 2013)
Agresti, Alan. 2013. Categorical Data Analysis. 3ed. ed. Wiley Series in Probability and Statistics. Wiley.