Repaso estadística 2: Probabilidad

La base de la estadística inferencial es la probabilidad de que un determinado evento suceda. La teoría de las probabilidades es un aspecto muy amplio, sin embargo, en las ciencias biológicas existen algunas distribuciones de probabilidad que son de utilidad. Algunas de estas distribuciones son las siguientes:

- Distribuciones discretas

Poisson Binomial Negativo Binomial.

- Distribuciones continuas

Simétricas: Es decir que oscilan entre - infinito y + infinito

Normal (Z) T de Student

Asimétricas - Oscilan entre 0 y + infinito

χ2 (Chi cuadrado) F Fischer

En el sistema de R, el paquete stats (el cual se instala de forma automática en R), contiene las distribuciones más comunes. Si utiliza el siguiente comando:

help("Distributions")

podrá visualizar la variedad de opciones que le entrega el software.

La probabilidad de que ocurra un evento A se expresa de la siguiente ecuación [1]:

\(P(A)= N_{A}/N\); donde \(N_{A}\) es el número de eventos que cumplen un criterio específico, y \(N\) es el número total de eventos. Por ejemplo, si se tienen 10 objetos en una bolsa, y 6 de estos son de color negro, la probabilidad de que se extraiga un elemento negro corresponde a 6/10.

A partir de la ecuación [1] se pueden extraer algunas propiedades de las probabilidades:

1- \(P(A)\geqslant0\). Dado que \(N_{A}\) es una cantidad, y por tanto nunca puede ser menor a cero.

2- \(P(A)\leq1\). Dado que \(N_{A}\) nunca puede exceder a \(N\).

3- La probabilidad se puede mostrar como \(P(A)\) o \(1-P(A)\) (Funciones en masa o acumuladas).

Para cada distribución de probabilidad, en R existen cuatro opciones. Cada una de las opciones se puede acceder precediendo la letra al nombre de la distribución:

d: función de densidad o de probabilidad.
p: función de distribución
q: función para el cálculo de cuantiles.
r: función para simular datos con dicha distribución.

Así, por ejemplo, para la distribución normal, la función de densidad se obtiene como dnorm(), la función de distribución como pnorm(), los cuantiles se calculan mediante qnorm() y se pueden generar valores aleatorios con distribución normal mediante rnorm(). Puede consultarse la ayuda, help(dnorm) para conocer la sintaxis específica de estas funciones.

Para establecer la probabilidad de que ocurra un determinado evento en R, se debe tener en cuenta si lo que estamos interesados es una función en MASA o una función ACUMULADA. Una función en MASA corresponde a situaciones “exactas”, o mejor dicho, que ocurra una situación determinada:

  1. Todos
  2. Ningunos
  3. Exactamente

Por otra parte, la función ACUMULADA hace referencia a eventos que incluyen (o no incluyen) la situación específica y buscan resolver la probabilidad que ocurre acumulada (desde 0 hasta \(P(i)\) o de \(P(i)\) hasta 1).

  1. Entre
  2. Por lo menos
  3. Al menos
  4. Más de
  5. Menos de, por citar algunos ejemplos.

La siguiente regla le va permitir resolver las probabilidades:

  1. Preguntas con fórmula \(<\): No se incluye el valor solicitado. Ejm. Pr(\(x<3\)) = P(\(x<2\))

  2. Preguntas con fórmula \(\leq\): Se incluye el valor solicitado. Ejm. Pr(\(x<3\)) = P(\(x<3\))

  3. Preguntas con fórmula \(>\): Regla complementación Pr(\(x>3\)) = 1-P(\(\leq3\))

  4. Preguntas con fórmula \(\geq\): Regla complementación y número más próximo Pr(\(\geq6\)) = 1-P(\(\leq5\))

Distribución de Poisson

La distribución de Poisson se representa por la siguiente ecuación: \(P=\frac{e^{-m}\ast m^{r}}{r!}\); donde \(m\) corresponde a número de intentos por laprobabilidad de éxito (Tasa). La distribución de Poisson se puede utilizar para calcular la probabilidad de que ocurran eventos “extraños”, es decir, la distribución de hechos poco frecuentes en una población grande. A manera de ejemplo, en un determinado momento existe la probabilidad de que dentro de una gran población una bacteria individual pueda adquirir una mutación. La mutación es un evento poco frecuente (Stephenson, 2012).

Ejemplo1. Deseamos expresar la probabilidad resultante de encontrar desde 0 a 10 ensayos de una colonia de bacterias con tasa de mutación (lambda) de 7.

dpois(0:10,lambda=7)
##  [1] 0.000911882 0.006383174 0.022341108 0.052129252 0.091226192
##  [6] 0.127716668 0.149002780 0.149002780 0.130377432 0.101404670
## [11] 0.070983269

Ejemplo 2. Ahora cuál es la probabilidad de que ocurran exactamente 4 mutaciones?

dpois(4,7)#Note el uso de "d" como función en masa.
## [1] 0.09122619

Ejemplo 3. ¿Cuál es la probabilidad de obtener 4 o menos mutaciones?

ppois(4,7)
## [1] 0.1729916
# o igual a la siguiente opción
sum(dpois(0:4,7))
## [1] 0.1729916

Ejemplo 4. ¿Cuál es la probabilidad de determinar al menos 6 mutaciones?

1-ppois(5, 7)
## [1] 0.6992917

Ejemplo 5. ¿Cuál es la probabilidad de encontrar 3 o más mutaciones?

1-ppois(2,7)
## [1] 0.9703638

Ejemplo 7. ¿Entre 2 y 4 mutaciones?

ppois(4,7)- ppois(1,7)
## [1] 0.1656966

Ejemplo 8. ¿Probabilidad de obtener 12 o más mutaciones?

1-ppois(11,7)
## [1] 0.05334962

Uso de la Distribución de Poisson

La distribución de Poisson también sirve para establecer calcular la tasa de mutación. Por favor haga lectura del ejemplo disponible en el libro de Texto Cálculo en Biología Molecular y Biotecnología; Stephenson 2010. En la plataforma, está disponible el extracto de las páginas 71 a 73.

*Compruebe lo siguiente: Realmente una tasa de 0.51 de fluctuaciones produce la probabilidad calculada en el ejemplo anterior?

Distribución Binomial

En el caso de la distribución Binomial, esta tiene la característica de eventos excluyentes, por lo cual tiene situaciones de éxito o fracaso (debe verificar lo que se le pregunta!). Esta distribución tiene las siguientes características:

1.Los ensayos de Bernoulli se llevan a cabo n veces,

2.Los ensayos son independientes,

3.La probabilidad de exito p no cambia entre los ensayos.

Se le conoce tambien como distribucion de la probabilidad puntual o de Bernoulli, debido al suizo Jacques Bernoulli, quien por primera vez

Aplican las mismas reglas anteriores, a excepción de que debemos incluir los eventos.

Ejemplo 9. Se conoce que el musgo es un inhibidor de la floracion en plantaciones de cacao. Se realiza un experimento con un tipo de fertilizante organico para eliminar el musgo en una plantacion de cacao orgánico. Se encontro una efectividad del fertilizante en los primeros experimentos del 75%. Encontrar la probabilidad de que se aplique el mismo fertilizante en otras fincas de cacao organico en 10 parcelas del mismo tamaño y bajo las mismas condiciones. a) Determine cual es la probabilidad de que exactamente 3 parcelas no pierdan su cosecha?

dbinom(3,10,0.75)
## [1] 0.003089905
  1. y de que pierdan su cosecha?
dbinom(3,10,0.25)
## [1] 0.2502823

FIN