Modelos Estadísticos. Grado Biotecnología



Introducción


Sería muy complicado y farragoso si para cada experimento aleatorio ligeramente diferente de otro ya realizado, tuviéramos que determinar las distribuciones de probabilidad desde cero. Afortunadamente, podemos hacer uso de las similitudes que existen entre ciertos tipos o familias de experimentos y ciertas distribuciones de probabilidad, conocidas con le nombre de distribuciones notables, que nos permiten el desarrollo de las funciones de distribución que representen las características generales del experimento.

Por ejemplo, muchos experimentos comparten el elemento común de que sus resultados se pueden clasificar en uno de dos eventos: una moneda puede salir cara o cruz; un niño puede ser hombre o mujer; una persona puede morir o no morir; una persona puede ser empleada o desempleada. Estos resultados a menudo se etiquetan como “éxito” o “fracaso”, teniendo en cuenta que aquí no hay connotación de “bondad”; por ejemplo, al observar los nacimientos, el estadístico podría calificar el nacimiento de un niño como un “éxito” y la el nacimiento de una niña como un “fracaso”, pero los padres no necesariamente verían las cosas de esa manera. Esta situación experimental se conoce como experimento Bernouilli, asignando probabilidad \(\theta\) al suceso calificado como éxito y probabilidad \(1-\theta\) al suceso calificado como de fracaso. Dichas probabilidades son diferentes para cada situación y se pueden aproximar mediante la obtención de datos experimentales. La distribución de probabilidad que surge en este experimento se conoce como distribución Bernouilli y es la primera distribución de probabilidad notable conocida.


Distribuciones Notables


En los puntos siguientes se presentan las otras tres distribuciones notables más habituales: Binomial, Poisson y Normal. Las dos primeras se usan en situaciones experimentales donde la variable aleatoria que se relaciona con el objetivo del experimento aleatorio es de tipo categórico, mientras que la última se utiliza para variables aleatorias de tipo continuo.

Binomial

A menudo nos interesa el resultado de los ensayos independientes y repetidos de Bernoulli, es decir, el número de éxitos en ensayos repetidos. En esta situación se considera:

  1. sucesos independientes: el resultado de un ensayo no afecta el resultado de otro ensayo.
  2. repeticiones: las condiciones son las mismas para cada prueba, es decir, la probabilidad de éxito y fracaso permanecen constantes a través de los diferentes ensayos realizados.

Una distribución binomial nos da las probabilidades asociadas con los ensayos independientes y repetidos de Bernoulli. En una distribución binomial, las probabilidades de interés son las de observar un cierto número de éxitos, \(r\), en \(n\) ensayos independientes, cada uno de los cuales tiene solo dos resultados posibles y la misma probabilidad, \(\theta\), de éxito. Por ejemplo, usando una distribución binomial, podemos determinar la probabilidad de obtener 4 caras en 10 lanzamientos de una misma moneda.

La distribución de probabilidad para este experimento queda completamente determinado si conocemos \(n\) (número de repeticiones realizadas) y \(\theta\) (probabilidad de éxito). Si \(X\) denota la variable aleatoria asociada con este experimento, la función de densidad de probabilidad se define como: \[P(X = x) = {n \choose x} \theta^x (1-\theta)^{n-x}\] donde \({n \choose x}\) representa el número combinatorio de \(n\) sobre \(x\), y \(x\) el número de éxitos observados. Dicha distribución se denota habitualmente: \[ X \sim Bi(n, \theta)\]

Esta distribución se puede evaluar para cualquier valor entre 0 y el número de repeticiones del experimento \(n\). En R la función dbinom permite obtener cualquier probabilidad de la distribución binomial una vez fijamos el valor que deseamos evaluar (\(x\)), el número de repeticiones (\(n\)), y la probabilidad de éxito asociada (\(\theta\)). Por ejemplo, podemos obtener la función de densidad de probabilidad asociada a un experimento binomial con 5 repeticiones y probabilidad de éxito 0.2 (\(X \sim Bi(5,0.2)\)) de la siguiente forma:

library(tidyverse)
# Establecemos los posibles resultados del experimneto (número de éxitos posibles) 
exito <- 0:5 
# Obtenemos ahora la función de densidad
fden <- dbinom(exito,5,0.2)
# Tabla 
res <- as.data.frame(cbind(exito,fden))
colnames(res) <- c("Exito","Probabilidad")
res
# Representamos gráficamente
ggplot(res,aes(Exito,Probabilidad)) + 
  geom_bar(stat = "identity", width = 0.05) + 
  labs(xlab = "Número de éxitos",ylab = "Probabilidad",title = "Binomial(5, 0.2)")

A la vista de los resultados podemos concluir que el la situación más probable es que observemos un éxito en las cinco repeticiones con una probabilidad de 0.41.

Una vez establecida la función de densidad de probabilidad resulta posible obtener el valor esperado del número de éxitos, así como conocer su variabilidad haciendo uso de las definiciones expuestas en el tema anterior. En concreto, para una variable que sigue una distribución de probabilidad Binomial (\(X \sim Bi(n,\theta)\)) tenemos que: \[E(X) = n \theta\] \[V(X) = n \theta (1-\theta)\] \[DT(X) = \sqrt{n \theta (1-\theta)}\]

En nuestro ejemplo tendríamos que el número esperado de éxitos se situaría en \(5 * 0.2 = 1\) y la variabilidad (en términos de la desviación típica) en \(\sqrt{5 * 0.2 * 0.8} = 0.89\), lo que implica que los valores más probables se sitúan entre 1 y 3 éxitos (\(1 \pm 1\)).

Cálculos de probabilidad

A continuación se presentan diferentes situaciones prácticas para ilustrar el cálculo de probabilidades con la distribución Binomial.

En la situación experimental anterior, \(X \sim Bi(5,0.2)\) ¿Cuál es la probabilidad de observar 3 éxitos?

dbinom(3,5,0.2)
## [1] 0.0512

La función pbinom permite la evaluación de la función de distribución de probabilidad en las situaciones de cálculo en que es necesaria. Los parámetros de la función son los mismos que los de la función dbinom.

En la situación experimental anterior (\(n=5\) y \(\theta = 0.2\)) ¿Cuál es la probabilidad de observar como mucho dos éxitos? En otras palabras: \[P(X \leq 2)\] que es el valor de la función de distribución Binomial para \(X = 2\).

pbinom(2,5,0.2)
## [1] 0.94208

En la situación experimental anterior (\(n=5\) y \(\theta = 0.2\)) ¿Cuál es la probabilidad de observar al menos tres éxitos? En otras palabras: \[P(X \geq 3) = 1 - P(X \leq 2)\]

1 - pbinom(2,5,0.2)
## [1] 0.05792

En la situación experimental anterior (\(n=5\) y \(\theta = 0.2\)) ¿Cuál es la probabilidad de observar entre dos y cuatro éxitos (ambos incluido)? En otras palabras: \[P(2 \leq X \leq 4) = P(X \leq 4) - P(X \leq 2)\]

pbinom(4,5,0.2) - pbinom(2,5,0.2)
## [1] 0.0576

En este enlace se pueden representar y calcular tanto la función de densidad como la función de distribución para diferentes situaciones experimentales relacionadas con la distribución Binomial.

Ejemplos

Utilizando la aplicación anterior o calculando directamente con las funciones de R contesta a las siguientes situaciones:

  1. En una población de sujetos se conoce que el 39% de ellos sufre algún tipo de mutación genética. Si se obtiene una muestra de 20 sujetos ¿cuál es la probabilidad de observar tres sujetos con esa mutación genética?
  2. En una población de moscas de la fruta se conoce que el 30% son de color negro y el 70% son de color gris. Si se extrae una muestra de 15 moscas ¿cuál es la probabilidad de observar al menos cuatro moscas de color negro? ¿y de color gris?
  3. Una cierta droga causa daños en el hígado en el 1% de los pacientes. Se van a realizar estudios completos sobre 50 pacientes que están tomando dicha droga para detectar daños en el hígado. ¿Cuál es la probabilidad de que ninguno de lo pacientes muestre daños en el hígado? ¿Cuál es la probabilidad de que al menos uno de los pacientes muestre daños en el hígado?
  4. Los estudios realizados concluyen que el 10% de las adolescentes de EEUU tienen deficiencia de hierro. Se obtiene una muestra de 14 adolescentes y se desea conocer ¿cuál es la probabilidad de que al menos el 50% de ellas tengan una deficiencia de hierro?

Ajuste de la distribución Binomial

En este apartado vemos como obtener la distribución Binomial asociada a una muestra de datos correspondientes a un estudio experimental. El ajuste de dicha distribución nos permitirá obtener la probabilidad asociada a cualquier situación experimental de la población bajo estudio.

Ejemplo 1. Los estudiantes de una clase de botánica van a realizar un experimneto para conocer el grado de germinación de un tipo de planta. Para ello cada estudiante planta en un semillero cinco semillas de dicha planta y contabiliza cuantas de ellas han germinado al cabo de una semana. Los datos obtenidos para el conjunto de todos los estudiantes (280 en total) se muestran en la tabla siguiente:

Semillas germinadas Semillas no germinadas Número de estudiantes
0 5 17
1 4 53
2 3 94
3 2 79
4 1 33
5 0 4

El estudio desea conocer cual es la probabilidad de germinación y el número esperado de germinaciones en base a dicha información experimental.

# En primer lugar cargamos los datos
germinadas <- 0:5
estudiantes <- c(17,53,94,79,33,4)
design <- data.frame(Germinadas = germinadas, Frecuencia = estudiantes)
# Para calcular la probabilidad de germinacion utilizamos la definición de probabilidad
# Casos favorables: semillas germinadas por frecuencia de estudiantes
favorables <- sum(germinadas*estudiantes)
# Casos posibles: 5 semillas por cada estudiante
posibles <- 5*280
# Probabilidad de germinación
probabilidad <- round(favorables/posibles,4)
# Número esperado de semillas germinadas
esperanza <- posibles*probabilidad
c(probabilidad,esperanza)
## [1]   0.45 630.00

La probabilidad de germinación es de 0.45 y el número esperado de semillas germinadas es de 630 sobre las 1400 plantadas por los estudiantes.

Podemos obtener ahora la función de densidad de probabilidad asociada con un experimento donde deseamos sembrar 20 semillas de dicha planta.

# Establecemos los posibles resultados del experimneto (número de éxitos posibles) 
exito <- 0:20
# Obtenemos ahora la función de densidad
fden <- round(dbinom(exito,20,0.45),6)
# Tabla 
res <- as.data.frame(cbind(exito,fden))
colnames(res) <- c("Exito","Probabilidad")
res
# Representamos gráficamente
ggplot(res,aes(Exito,Probabilidad)) + 
  geom_bar(stat = "identity", width = 0.05) + 
  labs(xlab = "Número de éxitos",ylab = "Probabilidad",title = "Binomial(20, 0.45)")

Los valores más probables son los correspondientes a los valores de germinación entre 7 y 11.

Ejemplo 2. Una empresa que se dedica a la elaboración de alimentos funcionales desea estudiar la línea de producción de sus nuevos embutidos con quinoa. Para ellos toma muestras de cinco productos durante 559 días y valora si el producto cumple con los estándares de calidad necesarios para su venta. Lo datos obtenidos se muestran en la tabla siguiente:

Cumplen con los estándares Número de días
0 16
1 27
2 80
3 152
4 180
5 104

El estudio desea conocer cual es la probabilidad de cumplir con el estádar y el número esperado de productos que cumplen con el estándar en base a dicha información experimental.

# En primer lugar cargamos los datos
grado <- 0:5
dias <- c(16,27,80,152,180,104)
design <- data.frame(Grado = grado, Dlias = dias)
# Casos favorables: 
favorables <- sum(grado*dias)
# Casos posibles: 
posibles <- 5*559
# Probabilidad de germinación
probabilidad <- round(favorables/posibles,4)
# Número esperado de semillas germinadas
esperanza <- posibles*probabilidad
c(probabilidad,esperanza)
## [1]    0.6737 1882.9915

La probabilidad de cumplir con el estándar es de 0.6737 y el número esperado de productos que cumplene es de 1883 sobre las 2795 que han sido probados.

Podemos obtener ahora la función de densidad de probabilidad asociada con un experimento donde deseamos saber que ocurriría con 25 nuevos embutidos.

# Establecemos los posibles resultados del experimneto (número de éxitos posibles) 
exito <- 0:25
# Obtenemos ahora la función de densidad
fden <- round(dbinom(exito,25,0.6737),6)
# Tabla 
res <- as.data.frame(cbind(exito,fden))
colnames(res) <- c("Exito","Probabilidad")
res
# Representamos gráficamente
ggplot(res,aes(Exito,Probabilidad)) + 
  geom_bar(stat = "identity", width = 0.05) + 
  labs(xlab = "Número de éxitos",ylab = "Probabilidad",title = "Binomial(25, 0.6737)")

Los valores más probables son los correspondientes a los valores comprendidos entre 15 y 20, es decir, que esperamos que de los nuevos 25 que vamos a producir entre 15 y 20 cumplan con el estándar de calidad.

Poisson

La distribución de Poisson se emplea como un modelo para variables aleatorias de tipo discreto cuando se quieren obtener las probabilidades de ocurrencia de un evento que se distribuye al azar en el espacio o el tiempo. Algunos ejemplos de esta distribución son:

  1. Ejemplo 1: En el estudio de cierto organismo acuático, se toman un gran número de muestras de un lago y se cuentan el número de organismos que aparecen en cada muestra. El interés principal radica en conocer cuál es la probabilidad de encontrar algún organismo en una muestra próxima si la media observada en el conjunto de nuestras es de 2 organismos.
  2. Ejemplo 2: En un estudio sobre la efectividad de un insecticida sobre cierto tipo de insecto, se fumiga una gran región. Posteriormente se crea una cuadrícula sobre el terreno, se selecciona de forma aleatoria un conjunto de ellas, y se cuenta el número de insectos vivos dentro de cada una. Estamos interesados en conocer cuál es la probabilidad de que no encontremos ningún insecto vivo en una cuadrícula próxima si se sabe que que la media de insectos vivos en las cuadriculas analizadas es de 0.5.
  3. Un grupo de investigadores observó la ocurrencia de hemangioma capilar retiniano (RCH) en pacientes con la enfermedad de von Hippel-Lindau (VHL). RCH es un tumor vascular benigno de la retina. Usando una revisión retrospectiva de series de casos consecutivos, los investigadores encontraron que el número de medio de tumores RCH por ojo para pacientes con VHL era de 4. Están interesados en conocer cuál es la probabilidad de que se detecten más de cuatro tumores por ojo.

Como se puede ver en los ejemplos la distribución de Poisson es muy habitual en los campos de la biología y la medicina. En una distribución de Poisson, las probabilidades de interés son las de observar un número de eventos, \(x\), en un tiempo o espacio determinado. La distribución de probabilidad para este experimento queda completamente determinada si conocemos el número de eventos y \(\lambda\) la tasa o media del número de eventos que ocurren por unidad de tiempo o espacio. Si \(X\) denota la variable aleatoria asociada con este experimento, la función de densidad de probabilidad se define como: \[P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}\] Dicha distribución se denota habitualmente: \[ X \sim Po(\lambda)\]. Esta distribución se puede evaluar para cualquier valor entre 0 y el número de máximo de ocurrencias que pueden ocurrir. Dado que este valor no se conoce de antemano se debe prefijar un valor máximo que asegure que la probabilidad de ese valor sea cero.

En R la función dpois permite obtener cualquier probabilidad de la distribución de Poisson una vez fijamos el valor que deseamos evaluar (\(x\)), y la tasa o media del número de eventos (\(\lambda\)). Por ejemplo, podemos obtener la función de densidad de probabilidad asociada a un experimento de Poisson con media de ocurrencias de 5:

# Establecemos los posibles resultados del experimneto (número de ocurrencias) 
eventos <- 0:20
# Media del número de eventos
media <- 5
# Obtenemos ahora la función de densidad
fden <- dpois(eventos,media)
# Tabla 
res <- as.data.frame(cbind(eventos,fden))
colnames(res) <- c("Eventos","Probabilidad")
res
# Representamos gráficamente
ggplot(res,aes(Eventos,Probabilidad)) + 
  geom_bar(stat = "identity", width = 0.05) + 
  labs(xlab = "Número de eventos",ylab = "Probabilidad",title = "Poisson(5)")

Como se puede ver en el gráfico los valores más probables se concentran alrededor de la tasa media de ocurrencia del evento.

Una vez establecida la función de densidad de probabilidad resulta posible obtener el valor esperado del número de eventos ocurridos, así como conocer su variabilidad haciendo uso de las definiciones expuestas en el tema anterior. En concreto, para una variable que sigue una distribución de probabilidad Poisson (\(X \sim Po(\lambda)\)) tenemos que: \[E(X) = \lambda\] \[V(X) = \lambda\] \[DT(X) = \sqrt{\lambda}\]

En nuestro ejemplo tendríamos que el número esperado de eventos se situaría en \(5\) y la variabilidad (en términos de la desviación típica) en \(\sqrt{5} = 2.24\), lo que implica que los valores más probables se sitúan entre 3 y 7 eventos (\(5 \pm 2\)).

Cálculos de probabilidad

A continuación se calculan las probabilidades de interés para cada uno de los ejemplos anteriores.

  • Ejemplo 1. Estamos interesados en calcular la \(P(X >= 1) = 1 - P(X = 0)\) para una variable Poisson con media 2.
1 - dpois(0,2)
## [1] 0.8646647
  • Ejemplo 2. Estamos interesados en calcular la \(P(X = 0)\) para una variable Poisson con media 0.5.
dpois(0,0.5)
## [1] 0.6065307
  • Ejemplo 3. Estamos interesados en calcular la \(P(X > 4) = 1 - P(X <= 4)\) para una variable Poisson con media 4. En este caso usamos la función ppois que nos permite calcular la función de distribución asociada.
1 - ppois(4,4)
## [1] 0.3711631

Otras situaciones

Exploramos ahora situaciones donde necesitamos reajustar la tasa de eventos para el calculo de probabilidades. Un laboratorio es capaz de realizar 20 análisis de cierto tipo en un hora. ¿Cuál es la probabilidad de realizar entre 30 y 36 análisis en las próximas dos horas?¿y la probabilidad de realizar más de 36?

En este caso conocemos la tasa media por hora pero al preguntarnos por una unidad de tiempo mayor es necesario adaptar dicha tasa.

# Tasa por hora
tasa <- 20
# Unidad de tiempo
horas <- 2
# Tasa en el intervalo de tiempo solicitado
media <- tasa*horas
media
## [1] 40
# Cálculo de probabilidad P(30 <= X <= 36)
ppois(36,media) - ppois(30,media)
## [1] 0.2346519
# Cálculo de probabilidad P(X > 36)
1 - ppois(35,media)
## [1] 0.7575858

Ajuste de la distribución Poisson

En este apartado vemos como obtener la distribución de Poisson asociada a una muestra de datos correspondientes a un estudio experimental. El ajuste de dicha distribución nos permitirá obtener la probabilidad asociada a cualquier situación experimental de la población bajo estudio.

Ejemplo 1. Se ha contabilizado el número de reacciones químicas (en realidad cambios de temperatura) que se producen en un compuesto durante un período de cinco horas. Las mediciones se han realizado todos los días durante 20 semanas. Las mediciones obtenidas aparecen en la tabla siguiente:

Reacciones químicas Número de días
0 12
1 10
2 19
3 17
4 10
5 8
6 7
7 5
8 5
9 3
10 3
11 1

Ajustamos la distribución de Poisson correspondiente y calculamos cuál es la probabilidad de que ocurran más de 9 reacciones químicas

# En primer lugar cargamos los datos
reacciones <- 0:11
frecuencia <- c(12,10,19,17,10,8,7,5,5,3,3,1)
design <- data.frame(reacciones, frecuencia)
# Para calcular la tasa debemos calcular la media ponderada del número de eventos
# Mediciones totales
total <- sum(frecuencia)
# Media ponderada
media <- sum(reacciones*frecuencia)/total
# Número esperado de reacciones
media
## [1] 3.64

La media de reacciones químicas se sitúa en 3.64. Calculamos ahora la probabilidad de interés

# P(X > 9) = 1 - P(X <= 8) 
1 - ppois(8,3.64)
## [1] 0.012455

Ejemplo 2. La probabilidad de que un individuo sufra una reacción al inyectarle un suero es 0.001. Determinar la probabilidad de que de un total de 2000 personas más de dos individuos sufran una reacción. Para poder ajustar la distribución de Poisson es necesario ajustar la tasa media de eventos que en este caso viene dada por el producto del número de repeticiones por la probabilidad de sufir una reacción

# Tasa
tasa <- 2000*0.001
# Probabilidad P(X > 2) = 1 - P(X <= 1)
1 - ppois(1,tasa)
## [1] 0.5939942

Hay una probabilidad de 0.59 de observar dos reacciones entre los 2000 sujetos. Este problema también se podría haber resuelto a partir de la distribución Binomial pero cuando el tamaño de la muestra multiplicado por la probabildiad de exíto (\(n\theta\)) es muy pequeña en comparación con dicho tamaño (2000),se considera la denominda aproximación de la Binomial por la Poisson que es lo que hemos hecho en este caso. Esto implica que en los caso de uso de la Binomial habrá que comprobar esta propiedad en primer lugar para conocer si el cálculo de probabilidad lo debemos hacer con la distribución de Poisson obtenida de esta forma.

Normal

Hasta ahora todas las distribuciones consideradas eran de tipo de discreto. En este punto tratamos la distribución de probabilidad de tipo continuo y más concreta mente la más famosa y utilizada de todas ellas: la distribución de probabilidad Normal. Una variable de tipo continuo es aquella que puede tomar cualquier valor dentro de un rango de valores, es decir, existe un infinito número de valores posibles para la variable aleatoria. Para representar gráficamente una distribución de una variable aleatoria continua se debe construir un subconjunto de clases o intervalos consecutivos para el rango de valores de la variable considerada y considerar el histograma resultante. Cuando consideramos un número muy grande de clases o intervalos podríamos obtener la curva suavizada que representa la función de densidad de probabilidad de la variable aleatoria. A continuación se muestra la representación gráfica de una variable continua cuando consideramos 5, 10, 20, 50 0 75 clases, así como la función de densidad teórica correspondiente. Como se observa cuanto mayor es el número de intervalos considerados más se parece el histograma a la función de densidad de probabilidad.

set.seed(1492)
df <- data.frame(x = rnorm(5000))
x <- df$x
# 5 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 5) + stat_function(fun = dnorm, colour = "red")
base

# 10 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 10) + stat_function(fun = dnorm, colour = "red")
base

# 20 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 20) + stat_function(fun = dnorm, colour = "red")
base

# 50 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 50) + stat_function(fun = dnorm, colour = "red")
base

# 75 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 75) + stat_function(fun = dnorm, colour = "red")
base

Esta aproximación gráfica nos permite extraer varias conclusiones muy relevantes para el cálculo de probabilidades en variables aleatorias de tipo continuo: 1. Dado que la probabilidad total para el rango de valores de la variable debe ser uno esto implica que el área bajo la curva de densidad obtenida debe ser igual a uno, ya que representa la función de densidad de probabilidad de todos ellos. 2. La función de densidad de probabilidad en un único valor es siempre cero ya que el área de un punto del eje x es cero 3. Solo podemos calcular probabilidades para una rango de valores de la variable, que coincide exactamete con el area bajo la curva que queda englobada entre los dos valores del eje x correspondientes a la variable de interés.

Para el ejemplo anterior ¿cuál es la probabilidad entre los valores de x comprendidos entre -1 y 1?

set.seed(1492)
df <- data.frame(x = rnorm(5000))
x <- df$x
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 75) + stat_function(fun = dnorm, colour = "red")
base

# Shading from x = -1 to x = 1 (within one std deviation):
dnorm_one_sd <- function(x){
  norm_one_sd <- dnorm(x)
  # Have NA values outside interval x in [-1, 1]:
  norm_one_sd[x <= -1 | x >= 1] <- NA
  return(norm_one_sd)
}
# Plot:
base + stat_function(fun = dnorm) + 
 stat_function(fun = dnorm_one_sd, geom = "area", fill = "yellow", alpha = 0.3)

Por tanto, el histograma se trata de una aproximación a la probabilidad real, lo que resulta de una gran relevancia ya que si asumimos una distribución teórica para el conjunto de datos experimentales sera posible evaluar cualquier probabilidad asociada con ella.

La función de densidad de probabilidad para una variable aleatoria \(X\) que sigue una distribución Normal con parámetros \(\mu\) y \(\sigma\), denotada por \(N(\mu, \sigma^2)\) viene dada por: \[f(x) = \frac{1}{2\pi\sigma^2} exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)\] Los dos parámetros de la distribución son \(\mu\) que representa la medida de localización y \(\sigma\) la medida de dispersión. Habitualmente los conocemos por sus nombres más habituales como son la media y la desviación típica. En concreto, para una variable que sigue una distribución de probabilidad Normal (\(X \sim N(\mu, \sigma^2)\)) tenemos que: \[E(X) = \mu\] \[V(X) = \sigma^2\] \[DT(X) = \sigma\]

A continuación se representan diferentes funciones de densidad para diferentes valores de los parámetros:

  • Distribuciones con media cero pero con desviaciones típicas 1 y 2 respectivamente. El efecto del aumento de la dispersión provoca que la función de densidad se convierta en más plana y asigne probabilidad a rangos de valores más extremos.
normal2 <- function(x){dnorm(x, mean = 0, sd = 3)}
grafico <- ggplot(data.frame(x = c(-10, 10)), aes(x)) + stat_function(fun = dnorm)
grafico <- grafico + stat_function(fun = normal2,colour = "red")
grafico

  • Distribuciones con medias 0 y 3 pero con desviación típica 1. El efecto de la localización provoca un desplazamiento de la función de densidad para centrarse en el valor de la media.
normal2 <- function(x){dnorm(x, mean = 3, sd = 1)}
grafico <- ggplot(data.frame(x = c(-10, 10)), aes(x)) + stat_function(fun = dnorm)
grafico <- grafico + stat_function(fun = normal2,colour = "red")
grafico

Características de la distribución Normal

A continuación se presentan algunas de las características más importantes de la distribución Normal:

  • Es una distribución simétrica alrededor de la media, \(\mu\).
  • La media, la mediana y la moda son iguales.
  • La distribución Normal queda completamente especificada a partir de los valores de \(\mu\) y \(\sigma\). Los diferentes valores de la media y la desviación típica desplazan hacia un lado o el otro, o consiguen una distribución más puntiaguda (desviaciones típicas más pequeñas) o más achatada (desviaciones típicas más grandes).
  • El intervalo definido por \(\mu - 5 * \sigma, \mu + 5 * \sigma\) tiene probabilidad 1, es decir, la probabilidad de los extremos inferior y superior del rango de valores se puede considerar despreciable.
  • Dada una variable aleatoria Normal con media \(\mu\) y desviación típica \(\sigma\) y tenemos un escalar \(a\) tenemos que:

\[ X \sim N(\mu, \sigma^2) \Longrightarrow aX \sim N(a\mu, a^2\sigma^2)\] * Dada dos variables aleatorias Normales, \(X e Y\), con medias y desviaciones típicas respectivas: \(\mu_1\), \(\sigma_1\) y \(\mu_2\), \(\sigma_2\) y dos escalares \(a\) y \(b\) tenemos que

\[ X \sim N(\mu_1, \sigma^2_1), Y \sim N(\mu_2, \sigma^2_2) \Longrightarrow aX + bY\sim N(a\mu_1+b\mu_2, a^2\sigma^2_1+b^2\sigma^2_2)\]

Esta última propiedad se puede generalizar para el caso de \(m\) variables aleatorias en lugar de 2.

Teorema Central de Límite

Si las variables aleatorias \(X_1,...X_n\) son una muestra aleatoria de una distribución con media \(\mu\) y desviación típica \(\sigma\) entonces las variables aleatorias suma (\(T = X_1+...+X_n\)) y media (\(M = (X_1+...+X_n)/n\)) tienen distribuciones: \[ T \sim N\left(n\mu,n\sigma^2\right)\] \[ M \sim N\left(\mu,\frac{\sigma^2}{n}\right)\] Ejemplo. Supóngase que las personas que asisten a una fiesta sriven bebidas de una botella que contiene 63 onzas de un cierto líquido. Su el tamaño esperado de cada bebida es de 2 onzas con una deviación típica de 0.5 onzas. ¿Cuál es la probabilidad de que la botella no está vacia después de haber servido 36 bebidas?

Cálculos de probabilidad

Ejemplo. Imaginemos que los valores de colesterol de una cierta población pueden asimilarse a una distribución Normal con media de 200 mg/100 ml y desviación típica de 20 mg/100 ml. Si se selecciona a un individuo de la población y se analiza su nivel de colesterol: i) ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?, ii) ¿Cuál es la probabilidad de que el nivel de colesterol sea inferior a 150 mg/100 ml?, iii) ¿Cuál es la probabildiad de que el nivel de colesterol sea superior a 225 mg/100 ml?, iv) ¿Cuál es la probabilidad de que el nivel de colesteril se sitúe entre 190 y 210 mg/100 ml?

Para realizar los calculos de probabilidad utilizamos la función pnorm() que nos permite obtener la función de disttribución normal

# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?
pnorm(200, mean = 200, sd = 20) - pnorm(100, mean = 200, sd = 20)
## [1] 0.4999997
# ¿Cuál es la probabilidad de que el nivel de colesterol sea inferior a 150 mg/100 ml?
pnorm(150, mean = 200, sd = 20)
## [1] 0.006209665
# ¿Cuál es la probabildiad de que el nivel de colesterol sea superior a 225 mg/100 ml?
1 - pnorm(225, mean = 200, sd = 20)
## [1] 0.1056498
# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?¿Cuál es la probabilidad de que el nivel de colesteril se sitúe entre 190 y 210 mg/100 ml?
pnorm(210, mean = 200, sd = 20) - pnorm(190, mean = 200, sd = 20)
## [1] 0.3829249

Tipificación

Dada una variable aleatoria \(X\) con distribución de probabilidad \(N(\mu,\sigma^2)\) la variable aleatoria \(Z\) definida como \[Z=\frac{X-\mu}{\sigma}\] tiene una distribución de probabilidad \(N(0,1)\) (denominada Normal estándar), es decir, \[Z \sim N(0,1)\]

La tipificación toma la distribución de una variable aleatoria y la transforma en otra sin más que restar por la media y dividir por la desviación típica. Esta distribución tipificada se utiliza habitualmente para el cálculo de probabilidades y para representar variables que no dependen de la media ni la desviación típica. En este caso \(E(Z) = 0\) y \(V(Z) = 1\).

En este enlace se pueden realizar los cálculos de probabilidad (así como su representación gráfica) asociados con la normal estándar.

Para los datos del ejemplo anterior, los valores tipificados en cada situación vienen dados por:

# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?
(200 - 200) / 20
## [1] 0
(100 - 200) / 20
## [1] -5
# ¿Cuál es la probabilidad de que el nivel de colesterol sea inferior a 150 mg/100 ml?
(150 - 200) / 20
## [1] -2.5
# ¿Cuál es la probabildiad de que el nivel de colesterol sea superior a 225 mg/100 ml?
(225 - 200) / 20
## [1] 1.25
# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?¿Cuál es la probabilidad de que el nivel de colesteril se sitúe entre 190 y 210 mg/100 ml?
(210 - 200) / 20
## [1] 0.5
(190 - 200) / 20
## [1] -0.5

Utilizando el enlace anterior comprueba que las probabildiades obtenidas son las mismas que las obtenidas anteriormente.

Variables aleatorias a partir de la distribución Normal

A partir de la distribución de probabilidad Normal se pueden obtener otras distribuciones de probabilidad que resultan de gran utilidad para los procesos de generalización de resultados de un diseño experimental a una población que veremos en la unidad siguiente.

Distribución Chi-cuadrado

Sean n variables aleatorias \(X_1,...,X_n\) independientes entre sí cuya distribución de probabilidad es idéntica para todas ellas e igual a una Normal estándar (\(N(0,1)\)). Si definimos la variable aleatoria suma como: \[X = X_1 + ... + X_n,\] entonces decimos que \(X\) se distribuye según una distribución Chi-cuadrado con \(n\) grados de libertad y la denotamos por \[X \sim \chi^2_n.\]

T se Student

Si tenemos dos variables aleatorias independientes \(Y\) y \(Z\) con distribuciones de probabilidad \[Z \sim N(0,1); Y \sim \chi^2_n,\] y consideramos la variable aleatoria \(X\) dada por: \[X = \frac{Z}{\sqrt{Y/n}},\] entonces decimos que dicha variable sigue una distribución \(t\) de Student con \(n\) grados de libertad, y se denota por \[X \sim t_n.\]

F de Snedecor

Si tenemos dos variables aleatorias independientes \(Y\) y \(Z\) con distribuciones de probabilidad \[Z \sim \chi^2_n; Y \sim \chi^2_m,\] y consideramos la variable aleatoria \(X\) dada por: \[X = \frac{Z/n}{Y/m},\] entonces decimos que dicha variable sigue una distribución \(F\) de Snedecor con \(n\) y \(m\) grados de libertad, y se denota por \[X \sim F_{n,m}.\]

Otras dostribuciones de probabilidad de interés

En este punto se presentan otras distribuciones de probabilidad que aunque resultan muy habituales en la práctica no son el objetivo de este temario. Se muestran como ejemplos de otros tipos de distribuciones.

Distribución Geométrica

La distribución de probabilidad Geométrica es de tipo discreto y se utiliza para modelizar situaciones experimentales donde se está interesado en saber cuantos fracasos han ocurrido hasta que aparece un éxito. Un ejemplo habitual es contar el número de piezas sin defectos hasta que encontramos una con defecto. Si \(\theta\) denota la probabilidad de éxito, la función de densidad de probabilidad de una variable aleatoria \(X\) de tipo geométrica, \(X \sim Ge(\theta)\) viene dada por: \[f(x) = (1 - \theta)^k \theta, k=1,2,3,...\] donde \(k\) representa el número de fracasos, es decir, que la función de densidad representa la probabilidad de encontrar \(k\) fracasos hasta el primer éxito. Una vez especifica la probabilidad de éxito \(\theta\) tenemos que: \[E(X) = \frac{1}{\theta}\] \[V(X) = \frac{1-\theta}{\theta^2}\] \[DT(X) = \sqrt{\frac{1-\theta}{\theta^2}}\] Para los cálculos de probabilidad debemos usar las funciones dgeom() y pgeom().

Distribución Exponencial

La distribución exponencial es el equivalente continuo de la distribución geométrica discreta. Esta distribución describe procesos en los que nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado nada.

Ejemplos de este tipo de distribuciones son:

  • El tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la ley que sigue este evento se utiliza en Ciencia para, por ejemplo, la datación de fósiles o cualquier materia orgánica mediante la técnica del carbono 14, C14;
  • El tiempo que puede transcurrir en un servicio de urgencias, para la llegada de un paciente;
  • En un proceso de Poisson donde se repite sucesivamente un experimento a intervalos de tiempo iguales, el tiempo que transcurre entre la ocurrencia de dos sucesos consecutivos sigue un modelo probabilístico exponencial. Por ejemplo, el tiempo que transcurre entre que sufrimos dos veces una herida importante.

La distribución exponencial viene completamente especificada, a través del parámetro \(\lambda >0\) que mide el número medio de veces que ocurre el evento de interés, mediante la función de densidad: \[f(x) =\lambda e^{-\lambda t}, t \geq 0\] Si \(X \sim Exp(\lambda)\) entonces tenemos que: \[E(X) = \frac{1}{\lambda}\] \[V(X) = \frac{1}{\lambda^2}\] \[DT(X) = \frac{1}{\lambda}\] Para los cálculos de probabilidad debemos usar las funciones dexp() y pexp().


Bibliografía



Copyright © 2018 Javier Morales. Universidad Miguel Hernández de Elche.