Julio 13, 2017

Distribuciones para datos categóricos

  • Inferir \(\Leftarrow\) Datos tengan cierta distribución

  • Datos categóricos: tres distribuciones clave
    • Binomial
    • Multinomial
    • Poisson

Binomial

  • \(n\) ensayos iid. ~ Bernoulli: \(Y_1,...,Y_n\)

  • Probabilidad de éxito: \(P(Y_i=1) = \pi\), para \(i=1,...,n\)

  • El número total de éxitos es \(Y:= \sum_{i=1}^n Y_i \in bin(n,\pi)\). \(Y\) tiene rango \(\{ 0,...,n \}\) distribución binomial con índice \(n\) y parámetro \(\pi\).

  • Función de probabilidad: \[P_Y(y)= \binom{n}{y} \pi^y (1-\pi)^{n-y} \qquad,\enspace y=0,...,n\]

Binomial: Propiedades

  • Esperanza y Varianza Bernoulli: \[ E(Y_i)=\pi \qquad y \qquad Var(Y_i)=\pi(1-\pi) \]

  • Esperanza y Varianza Binomial: \[ E(Y)=n\pi \qquad y \qquad Var(Y)=n\pi(1-\pi) \]

  • Kurtosis \[\frac{E(Y-\mu)^3}{\sigma^3}=\frac{1-2\pi}{\sqrt{n\pi(1-\pi)}}\]

  • Ejemplo binomial en genómica

Binomial: Gráfica de la distribución

Binomial y Normal

La distribución binomial converge a la normal cuando n aumenta, \[n*min(\pi, 1-\pi) \geq 5\]

Multinomial

  • \(n\) ensayos iid. con \(c\) posibles resultados (categorías)

  • Sea \(n_j\) el número de ensayos con resultado en la categoría \(j\), donde \(1 \leq n_j \leq n\); \(1 \leq j \leq c\) y \(n=\sum n_k\).

  • Sea \(\pi_k\) la probabilidad de que en cualquier ensayo el resultado esté en la categoría \(j\). El vector \((n_1,...,n_c)\) tiene distribución multinomial con función de probabilidad de mas dada por, \[p(n_1,...,n_c)=\frac{n!}{n_1!n_2!...n_c!}\pi_1^{n_1} \pi_2^{n_2}...\pi_c^{n_c}\]

  • \(E(n_j)=n\pi_j, \qquad\) \(Var(n_j)=n\pi_j(1-\pi_j), \qquad\) \(Cov(n_j,n_k)=-n\pi_j\pi_k\)

  • Cada \(n_j\) es binomial. Multinomial en genómica

Poisson

  • Sea \(Y\) el número eventos que ocurren de manera aleatoria e independiente sobre tiempo o espacio en periodos o regiones disjuntas. Sea \(\mu\) el número de eventos promedio en un periodo.

  • La variable \(Y\) se distribuye Poisson con distribución de probabilidad, \[p(y)=\frac{e^{-\mu}\mu^y}{y!}, \qquad y=0,1,2,...\]

  • \(E(Y)=Var(Y)= \mu, \qquad\) \(E(Y-\mu)^3/\sigma^3=1/\sqrt{\mu}\)

  • Suma de variables Poisson es Poisson cuya media es la suma de las medias de cada Poisson en cuestión.

  • Poisson en genómica

Poisson: Gráfica de la distribución

Poisson vs Binomial: Ley de los eventos raros Teorema del límite

Suponga \(n \rightarrow \infty\) y \(p \rightarrow 0\) mientras \(np=\mu\) se mantiene constante. Se puede aproximar \[P_Y(y)= \binom{n}{y} \pi^y (1-\pi)^{n-y} \approx \frac{e^{-\mu}\mu^y}{y!}\]

Poisson vs Multinomial

  • Sean \(X_1,...,X_k\) poisson independientes, donde \(X_i \in Pois(\lambda_i)\). La distribución condicional del vector \((X_1,...,X_k)\) dado \(n=\sum X_i\) se distribuye \(Mult(n,\pi)\), donde \(\pi=(\pi_1,...,\pi_k)\) y \(\pi_j=\frac{\lambda_j}{\sum \lambda_i}\).

  • Esto implica que la distribución no-condicional de \((X_1,...,X_k)\) se puede factorizar en el producto de una distribución Poisson (\(n\)) y una multinomial (\(X|n\))

  • La función de verosimilitud se descompone tambien en dos factores uno para \(\sum \lambda_j\) y otro para \(\pi\). Son independientes \(n\) y \(\pi\). Cualquier estimación sobre \(\pi\) puede será la misma si se considera \(n\) aleatoria o fija.

  • Ejemplo: # llegadas a Urgencias por \(k\) razones.

Ejemplos y Referencias