Modelos Estadísticos. Grado Biotecnología
Abstract
En este tema se introducen las distribuciones de probabilidad notables: Binomial, Poisson y Normal.Sería muy complicado y farragoso si para cada experimento aleatorio ligeramente diferente de otro ya realizado, tuviéramos que determinar las distribuciones de probabilidad desde cero. Afortunadamente, podemos hacer uso de las similitudes que existen entre ciertos tipos o familias de experimentos y ciertas distribuciones de probabilidad, conocidas con le nombre de distribuciones notables, que nos permiten el desarrollo de las funciones de distribución que representen las características generales del experimento.
Por ejemplo, muchos experimentos comparten el elemento común de que sus resultados se pueden clasificar en uno de dos eventos: una moneda puede salir cara o cruz; un niño puede ser hombre o mujer; una persona puede morir o no morir; una persona puede ser empleada o desempleada. Estos resultados a menudo se etiquetan como “éxito” o “fracaso”, teniendo en cuenta que aquí no hay connotación de “bondad”; por ejemplo, al observar los nacimientos, el estadístico podría calificar el nacimiento de un niño como un “éxito” y la el nacimiento de una niña como un “fracaso”, pero los padres no necesariamente verían las cosas de esa manera. Esta situación experimental se conoce como experimento Bernouilli, asignando probabilidad \(\theta\) al suceso calificado como éxito y probabilidad \(1-\theta\) al suceso calificado como de fracaso. Dichas probabilidades son diferentes para cada situación y se pueden aproximar mediante la obtención de datos experimentales. La distribución de probabilidad que surge en este experimento se conoce como distribución Bernouilli y es la primera distribución de probabilidad notable conocida.
En los puntos siguientes se presentan las otras tres distribuciones notables más habituales: Binomial, Poisson y Normal. Las dos primeras se usan en situaciones experimentales donde la variable aleatoria que se relaciona con el objetivo del experimento aleatorio es de tipo categórico, mientras que la última se utiliza para variables aleatorias de tipo continuo.
A menudo nos interesa el resultado de los ensayos independientes y repetidos de Bernoulli, es decir, el número de éxitos en ensayos repetidos. En esta situación se considera:
Una distribución binomial nos da las probabilidades asociadas con los ensayos independientes y repetidos de Bernoulli. En una distribución binomial, las probabilidades de interés son las de observar un cierto número de éxitos, \(r\), en \(n\) ensayos independientes, cada uno de los cuales tiene solo dos resultados posibles y la misma probabilidad, \(\theta\), de éxito. Por ejemplo, usando una distribución binomial, podemos determinar la probabilidad de obtener 4 caras en 10 lanzamientos de una misma moneda.
La distribución de probabilidad para este experimento queda completamente determinado si conocemos \(n\) (número de repeticiones realizadas) y \(\theta\) (probabilidad de éxito). Si \(X\) denota la variable aleatoria asociada con este experimento, la función de densidad de probabilidad se define como: \[P(X = x) = {n \choose x} \theta^x (1-\theta)^{n-x}\] donde \({n \choose x}\) representa el número combinatorio de \(n\) sobre \(x\), y \(x\) el número de éxitos observados. Dicha distribución se denota habitualmente: \[ X \sim Bi(n, \theta)\]
Esta distribución se puede evaluar para cualquier valor entre 0 y el número de repeticiones del experimento \(n\). En R la función dbinom permite obtener cualquier probabilidad de la distribución binomial una vez fijamos el valor que deseamos evaluar (\(x\)), el número de repeticiones (\(n\)), y la probabilidad de éxito asociada (\(\theta\)). Por ejemplo, podemos obtener la función de densidad de probabilidad asociada a un experimento binomial con 5 repeticiones y probabilidad de éxito 0.2 (\(X \sim Bi(5,0.2)\)) de la siguiente forma:
library(tidyverse)
# Establecemos los posibles resultados del experimneto (número de éxitos posibles)
exito <- 0:5
# Obtenemos ahora la función de densidad
fden <- dbinom(exito,5,0.2)
# Tabla
res <- as.data.frame(cbind(exito,fden))
colnames(res) <- c("Exito","Probabilidad")
res# Representamos gráficamente
ggplot(res,aes(Exito,Probabilidad)) +
geom_bar(stat = "identity", width = 0.05) +
labs(xlab = "Número de éxitos",ylab = "Probabilidad",title = "Binomial(5, 0.2)")A la vista de los resultados podemos concluir que el la situación más probable es que observemos un éxito en las cinco repeticiones con una probabilidad de 0.41.
Una vez establecida la función de densidad de probabilidad resulta posible obtener el valor esperado del número de éxitos, así como conocer su variabilidad haciendo uso de las definiciones expuestas en el tema anterior. En concreto, para una variable que sigue una distribución de probabilidad Binomial (\(X \sim Bi(n,\theta)\)) tenemos que: \[E(X) = n \theta\] \[V(X) = n \theta (1-\theta)\] \[DT(X) = \sqrt{n \theta (1-\theta)}\]
En nuestro ejemplo tendríamos que el número esperado de éxitos se situaría en \(5 * 0.2 = 1\) y la variabilidad (en términos de la desviación típica) en \(\sqrt{5 * 0.2 * 0.8} = 0.89\), lo que implica que los valores más probables se sitúan entre 1 y 3 éxitos (\(1 \pm 1\)).
A continuación se presentan diferentes situaciones prácticas para ilustrar el cálculo de probabilidades con la distribución Binomial.
En la situación experimental anterior, \(X \sim Bi(5,0.2)\) ¿Cuál es la probabilidad de observar 3 éxitos?
dbinom(3,5,0.2)## [1] 0.0512
La función pbinom permite la evaluación de la función de distribución de probabilidad en las situaciones de cálculo en que es necesaria. Los parámetros de la función son los mismos que los de la función dbinom.
En la situación experimental anterior (\(n=5\) y \(\theta = 0.2\)) ¿Cuál es la probabilidad de observar como mucho dos éxitos? En otras palabras: \[P(X \leq 2)\] que es el valor de la función de distribución Binomial para \(X = 2\).
pbinom(2,5,0.2)## [1] 0.94208
En la situación experimental anterior (\(n=5\) y \(\theta = 0.2\)) ¿Cuál es la probabilidad de observar al menos tres éxitos? En otras palabras: \[P(X \geq 3) = 1 - P(X \leq 2)\]
1 - pbinom(2,5,0.2)## [1] 0.05792
En la situación experimental anterior (\(n=5\) y \(\theta = 0.2\)) ¿Cuál es la probabilidad de observar entre dos y cuatro éxitos (ambos incluido)? En otras palabras: \[P(2 \leq X \leq 4) = P(X \leq 4) - P(X \leq 2)\]
pbinom(4,5,0.2) - pbinom(2,5,0.2)## [1] 0.0576
En este enlace se pueden representar y calcular tanto la función de densidad como la función de distribución para diferentes situaciones experimentales relacionadas con la distribución Binomial.
Utilizando la aplicación anterior o calculando directamente con las funciones de R contesta a las siguientes situaciones:
En este apartado vemos como obtener la distribución Binomial asociada a una muestra de datos correspondientes a un estudio experimental. El ajuste de dicha distribución nos permitirá obtener la probabilidad asociada a cualquier situación experimental de la población bajo estudio.
Ejemplo 1. Los estudiantes de una clase de botánica van a realizar un experimneto para conocer el grado de germinación de un tipo de planta. Para ello cada estudiante planta en un semillero cinco semillas de dicha planta y contabiliza cuantas de ellas han germinado al cabo de una semana. Los datos obtenidos para el conjunto de todos los estudiantes (280 en total) se muestran en la tabla siguiente:
| Semillas germinadas | Semillas no germinadas | Número de estudiantes |
|---|---|---|
| 0 | 5 | 17 |
| 1 | 4 | 53 |
| 2 | 3 | 94 |
| 3 | 2 | 79 |
| 4 | 1 | 33 |
| 5 | 0 | 4 |
El estudio desea conocer cual es la probabilidad de germinación y el número esperado de germinaciones en base a dicha información experimental.
# En primer lugar cargamos los datos
germinadas <- 0:5
estudiantes <- c(17,53,94,79,33,4)
design <- data.frame(Germinadas = germinadas, Frecuencia = estudiantes)
# Para calcular la probabilidad de germinacion utilizamos la definición de probabilidad
# Casos favorables: semillas germinadas por frecuencia de estudiantes
favorables <- sum(germinadas*estudiantes)
# Casos posibles: 5 semillas por cada estudiante
posibles <- 5*280
# Probabilidad de germinación
probabilidad <- round(favorables/posibles,4)
# Número esperado de semillas germinadas
esperanza <- posibles*probabilidad
c(probabilidad,esperanza)## [1] 0.45 630.00
La probabilidad de germinación es de 0.45 y el número esperado de semillas germinadas es de 630 sobre las 1400 plantadas por los estudiantes.
Podemos obtener ahora la función de densidad de probabilidad asociada con un experimento donde deseamos sembrar 20 semillas de dicha planta.
# Establecemos los posibles resultados del experimneto (número de éxitos posibles)
exito <- 0:20
# Obtenemos ahora la función de densidad
fden <- round(dbinom(exito,20,0.45),6)
# Tabla
res <- as.data.frame(cbind(exito,fden))
colnames(res) <- c("Exito","Probabilidad")
res# Representamos gráficamente
ggplot(res,aes(Exito,Probabilidad)) +
geom_bar(stat = "identity", width = 0.05) +
labs(xlab = "Número de éxitos",ylab = "Probabilidad",title = "Binomial(20, 0.45)")Los valores más probables son los correspondientes a los valores de germinación entre 7 y 11.
Ejemplo 2. Una empresa que se dedica a la elaboración de alimentos funcionales desea estudiar la línea de producción de sus nuevos embutidos con quinoa. Para ellos toma muestras de cinco productos durante 559 días y valora si el producto cumple con los estándares de calidad necesarios para su venta. Lo datos obtenidos se muestran en la tabla siguiente:
| Cumplen con los estándares | Número de días | |
|---|---|---|
| 0 | 16 | |
| 1 | 27 | |
| 2 | 80 | |
| 3 | 152 | |
| 4 | 180 | |
| 5 | 104 |
El estudio desea conocer cual es la probabilidad de cumplir con el estádar y el número esperado de productos que cumplen con el estándar en base a dicha información experimental.
# En primer lugar cargamos los datos
grado <- 0:5
dias <- c(16,27,80,152,180,104)
design <- data.frame(Grado = grado, Dlias = dias)
# Casos favorables:
favorables <- sum(grado*dias)
# Casos posibles:
posibles <- 5*559
# Probabilidad de germinación
probabilidad <- round(favorables/posibles,4)
# Número esperado de semillas germinadas
esperanza <- posibles*probabilidad
c(probabilidad,esperanza)## [1] 0.6737 1882.9915
La probabilidad de cumplir con el estándar es de 0.6737 y el número esperado de productos que cumplene es de 1883 sobre las 2795 que han sido probados.
Podemos obtener ahora la función de densidad de probabilidad asociada con un experimento donde deseamos saber que ocurriría con 25 nuevos embutidos.
# Establecemos los posibles resultados del experimneto (número de éxitos posibles)
exito <- 0:25
# Obtenemos ahora la función de densidad
fden <- round(dbinom(exito,25,0.6737),6)
# Tabla
res <- as.data.frame(cbind(exito,fden))
colnames(res) <- c("Exito","Probabilidad")
res# Representamos gráficamente
ggplot(res,aes(Exito,Probabilidad)) +
geom_bar(stat = "identity", width = 0.05) +
labs(xlab = "Número de éxitos",ylab = "Probabilidad",title = "Binomial(25, 0.6737)")Los valores más probables son los correspondientes a los valores comprendidos entre 15 y 20, es decir, que esperamos que de los nuevos 25 que vamos a producir entre 15 y 20 cumplan con el estándar de calidad.
La distribución de Poisson se emplea como un modelo para variables aleatorias de tipo discreto cuando se quieren obtener las probabilidades de ocurrencia de un evento que se distribuye al azar en el espacio o el tiempo. Algunos ejemplos de esta distribución son:
Como se puede ver en los ejemplos la distribución de Poisson es muy habitual en los campos de la biología y la medicina. En una distribución de Poisson, las probabilidades de interés son las de observar un número de eventos, \(x\), en un tiempo o espacio determinado. La distribución de probabilidad para este experimento queda completamente determinada si conocemos el número de eventos y \(\lambda\) la tasa o media del número de eventos que ocurren por unidad de tiempo o espacio. Si \(X\) denota la variable aleatoria asociada con este experimento, la función de densidad de probabilidad se define como: \[P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}\] Dicha distribución se denota habitualmente: \[ X \sim Po(\lambda)\]. Esta distribución se puede evaluar para cualquier valor entre 0 y el número de máximo de ocurrencias que pueden ocurrir. Dado que este valor no se conoce de antemano se debe prefijar un valor máximo que asegure que la probabilidad de ese valor sea cero.
En R la función dpois permite obtener cualquier probabilidad de la distribución de Poisson una vez fijamos el valor que deseamos evaluar (\(x\)), y la tasa o media del número de eventos (\(\lambda\)). Por ejemplo, podemos obtener la función de densidad de probabilidad asociada a un experimento de Poisson con media de ocurrencias de 5:
# Establecemos los posibles resultados del experimneto (número de ocurrencias)
eventos <- 0:20
# Media del número de eventos
media <- 5
# Obtenemos ahora la función de densidad
fden <- dpois(eventos,media)
# Tabla
res <- as.data.frame(cbind(eventos,fden))
colnames(res) <- c("Eventos","Probabilidad")
res# Representamos gráficamente
ggplot(res,aes(Eventos,Probabilidad)) +
geom_bar(stat = "identity", width = 0.05) +
labs(xlab = "Número de eventos",ylab = "Probabilidad",title = "Poisson(5)") Como se puede ver en el gráfico los valores más probables se concentran alrededor de la tasa media de ocurrencia del evento.
Una vez establecida la función de densidad de probabilidad resulta posible obtener el valor esperado del número de eventos ocurridos, así como conocer su variabilidad haciendo uso de las definiciones expuestas en el tema anterior. En concreto, para una variable que sigue una distribución de probabilidad Poisson (\(X \sim Po(\lambda)\)) tenemos que: \[E(X) = \lambda\] \[V(X) = \lambda\] \[DT(X) = \sqrt{\lambda}\]
En nuestro ejemplo tendríamos que el número esperado de eventos se situaría en \(5\) y la variabilidad (en términos de la desviación típica) en \(\sqrt{5} = 2.24\), lo que implica que los valores más probables se sitúan entre 3 y 7 eventos (\(5 \pm 2\)).
A continuación se calculan las probabilidades de interés para cada uno de los ejemplos anteriores.
1 - dpois(0,2)## [1] 0.8646647
dpois(0,0.5)## [1] 0.6065307
ppois que nos permite calcular la función de distribución asociada.1 - ppois(4,4)## [1] 0.3711631
Exploramos ahora situaciones donde necesitamos reajustar la tasa de eventos para el calculo de probabilidades. Un laboratorio es capaz de realizar 20 análisis de cierto tipo en un hora. ¿Cuál es la probabilidad de realizar entre 30 y 36 análisis en las próximas dos horas?¿y la probabilidad de realizar más de 36?
En este caso conocemos la tasa media por hora pero al preguntarnos por una unidad de tiempo mayor es necesario adaptar dicha tasa.
# Tasa por hora
tasa <- 20
# Unidad de tiempo
horas <- 2
# Tasa en el intervalo de tiempo solicitado
media <- tasa*horas
media## [1] 40
# Cálculo de probabilidad P(30 <= X <= 36)
ppois(36,media) - ppois(30,media)## [1] 0.2346519
# Cálculo de probabilidad P(X > 36)
1 - ppois(35,media)## [1] 0.7575858
En este apartado vemos como obtener la distribución de Poisson asociada a una muestra de datos correspondientes a un estudio experimental. El ajuste de dicha distribución nos permitirá obtener la probabilidad asociada a cualquier situación experimental de la población bajo estudio.
Ejemplo 1. Se ha contabilizado el número de reacciones químicas (en realidad cambios de temperatura) que se producen en un compuesto durante un período de cinco horas. Las mediciones se han realizado todos los días durante 20 semanas. Las mediciones obtenidas aparecen en la tabla siguiente:
| Reacciones químicas | Número de días | |
|---|---|---|
| 0 | 12 | |
| 1 | 10 | |
| 2 | 19 | |
| 3 | 17 | |
| 4 | 10 | |
| 5 | 8 | |
| 6 | 7 | |
| 7 | 5 | |
| 8 | 5 | |
| 9 | 3 | |
| 10 | 3 | |
| 11 | 1 |
Ajustamos la distribución de Poisson correspondiente y calculamos cuál es la probabilidad de que ocurran más de 9 reacciones químicas
# En primer lugar cargamos los datos
reacciones <- 0:11
frecuencia <- c(12,10,19,17,10,8,7,5,5,3,3,1)
design <- data.frame(reacciones, frecuencia)
# Para calcular la tasa debemos calcular la media ponderada del número de eventos
# Mediciones totales
total <- sum(frecuencia)
# Media ponderada
media <- sum(reacciones*frecuencia)/total
# Número esperado de reacciones
media## [1] 3.64
La media de reacciones químicas se sitúa en 3.64. Calculamos ahora la probabilidad de interés
# P(X > 9) = 1 - P(X <= 8)
1 - ppois(8,3.64)## [1] 0.012455
Ejemplo 2. La probabilidad de que un individuo sufra una reacción al inyectarle un suero es 0.001. Determinar la probabilidad de que de un total de 2000 personas más de dos individuos sufran una reacción. Para poder ajustar la distribución de Poisson es necesario ajustar la tasa media de eventos que en este caso viene dada por el producto del número de repeticiones por la probabilidad de sufir una reacción
# Tasa
tasa <- 2000*0.001
# Probabilidad P(X > 2) = 1 - P(X <= 1)
1 - ppois(1,tasa)## [1] 0.5939942
Hay una probabilidad de 0.59 de observar dos reacciones entre los 2000 sujetos. Este problema también se podría haber resuelto a partir de la distribución Binomial pero cuando el tamaño de la muestra multiplicado por la probabildiad de exíto (\(n\theta\)) es muy pequeña en comparación con dicho tamaño (2000),se considera la denominda aproximación de la Binomial por la Poisson que es lo que hemos hecho en este caso. Esto implica que en los caso de uso de la Binomial habrá que comprobar esta propiedad en primer lugar para conocer si el cálculo de probabilidad lo debemos hacer con la distribución de Poisson obtenida de esta forma.
Hasta ahora todas las distribuciones consideradas eran de tipo de discreto. En este punto tratamos la distribución de probabilidad de tipo continuo y más concreta mente la más famosa y utilizada de todas ellas: la distribución de probabilidad Normal. Una variable de tipo continuo es aquella que puede tomar cualquier valor dentro de un rango de valores, es decir, existe un infinito número de valores posibles para la variable aleatoria. Para representar gráficamente una distribución de una variable aleatoria continua se debe construir un subconjunto de clases o intervalos consecutivos para el rango de valores de la variable considerada y considerar el histograma resultante. Cuando consideramos un número muy grande de clases o intervalos podríamos obtener la curva suavizada que representa la función de densidad de probabilidad de la variable aleatoria. A continuación se muestra la representación gráfica de una variable continua cuando consideramos 5, 10, 20, 50 0 75 clases, así como la función de densidad teórica correspondiente. Como se observa cuanto mayor es el número de intervalos considerados más se parece el histograma a la función de densidad de probabilidad.
set.seed(1492)
df <- data.frame(x = rnorm(5000))
x <- df$x
# 5 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 5) + stat_function(fun = dnorm, colour = "red")
base# 10 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 10) + stat_function(fun = dnorm, colour = "red")
base# 20 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 20) + stat_function(fun = dnorm, colour = "red")
base# 50 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 50) + stat_function(fun = dnorm, colour = "red")
base# 75 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 75) + stat_function(fun = dnorm, colour = "red")
baseEsta aproximación gráfica nos permite extraer varias conclusiones muy relevantes para el cálculo de probabilidades en variables aleatorias de tipo continuo: 1. Dado que la probabilidad total para el rango de valores de la variable debe ser uno esto implica que el área bajo la curva de densidad obtenida debe ser igual a uno, ya que representa la función de densidad de probabilidad de todos ellos. 2. La función de densidad de probabilidad en un único valor es siempre cero ya que el área de un punto del eje x es cero 3. Solo podemos calcular probabilidades para una rango de valores de la variable, que coincide exactamete con el area bajo la curva que queda englobada entre los dos valores del eje x correspondientes a la variable de interés.
Para el ejemplo anterior ¿cuál es la probabilidad entre los valores de x comprendidos entre -1 y 1?
set.seed(1492)
df <- data.frame(x = rnorm(5000))
x <- df$x
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 75) + stat_function(fun = dnorm, colour = "red")
base# Shading from x = -1 to x = 1 (within one std deviation):
dnorm_one_sd <- function(x){
norm_one_sd <- dnorm(x)
# Have NA values outside interval x in [-1, 1]:
norm_one_sd[x <= -1 | x >= 1] <- NA
return(norm_one_sd)
}
# Plot:
base + stat_function(fun = dnorm) +
stat_function(fun = dnorm_one_sd, geom = "area", fill = "yellow", alpha = 0.3)Por tanto, el histograma se trata de una aproximación a la probabilidad real, lo que resulta de una gran relevancia ya que si asumimos una distribución teórica para el conjunto de datos experimentales sera posible evaluar cualquier probabilidad asociada con ella.
La función de densidad de probabilidad para una variable aleatoria \(X\) que sigue una distribución Normal con parámetros \(\mu\) y \(\sigma\), denotada por \(N(\mu, \sigma^2)\) viene dada por: \[f(x) = \frac{1}{2\pi\sigma^2} exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)\] Los dos parámetros de la distribución son \(\mu\) que representa la medida de localización y \(\sigma\) la medida de dispersión. Habitualmente los conocemos por sus nombres más habituales como son la media y la desviación típica. En concreto, para una variable que sigue una distribución de probabilidad Normal (\(X \sim N(\mu, \sigma^2)\)) tenemos que: \[E(X) = \mu\] \[V(X) = \sigma^2\] \[DT(X) = \sigma\]
A continuación se representan diferentes funciones de densidad para diferentes valores de los parámetros:
normal2 <- function(x){dnorm(x, mean = 0, sd = 3)}
grafico <- ggplot(data.frame(x = c(-10, 10)), aes(x)) + stat_function(fun = dnorm)
grafico <- grafico + stat_function(fun = normal2,colour = "red")
graficonormal2 <- function(x){dnorm(x, mean = 3, sd = 1)}
grafico <- ggplot(data.frame(x = c(-10, 10)), aes(x)) + stat_function(fun = dnorm)
grafico <- grafico + stat_function(fun = normal2,colour = "red")
graficoA continuación se presentan algunas de las características más importantes de la distribución Normal:
\[ X \sim N(\mu, \sigma^2) \Longrightarrow aX \sim N(a\mu, a^2\sigma^2)\] * Dada dos variables aleatorias Normales, \(X e Y\), con medias y desviaciones típicas respectivas: \(\mu_1\), \(\sigma_1\) y \(\mu_2\), \(\sigma_2\) y dos escalares \(a\) y \(b\) tenemos que
\[ X \sim N(\mu_1, \sigma^2_1), Y \sim N(\mu_2, \sigma^2_2) \Longrightarrow aX + bY\sim N(a\mu_1+b\mu_2, a^2\sigma^2_1+b^2\sigma^2_2)\]
Esta última propiedad se puede generalizar para el caso de \(m\) variables aleatorias en lugar de 2.
Si las variables aleatorias \(X_1,...X_n\) son una muestra aleatoria de una distribución con media \(\mu\) y desviación típica \(\sigma\) entonces las variables aleatorias suma (\(T = X_1+...+X_n\)) y media (\(M = (X_1+...+X_n)/n\)) tienen distribuciones: \[ T \sim N\left(n\mu,n\sigma^2\right)\] \[ M \sim N\left(\mu,\frac{\sigma^2}{n}\right)\] Ejemplo. Supóngase que las personas que asisten a una fiesta sriven bebidas de una botella que contiene 63 onzas de un cierto líquido. Su el tamaño esperado de cada bebida es de 2 onzas con una deviación típica de 0.5 onzas. ¿Cuál es la probabilidad de que la botella no está vacia después de haber servido 36 bebidas?
Ejemplo. Imaginemos que los valores de colesterol de una cierta población pueden asimilarse a una distribución Normal con media de 200 mg/100 ml y desviación típica de 20 mg/100 ml. Si se selecciona a un individuo de la población y se analiza su nivel de colesterol: i) ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?, ii) ¿Cuál es la probabilidad de que el nivel de colesterol sea inferior a 150 mg/100 ml?, iii) ¿Cuál es la probabildiad de que el nivel de colesterol sea superior a 225 mg/100 ml?, iv) ¿Cuál es la probabilidad de que el nivel de colesteril se sitúe entre 190 y 210 mg/100 ml?
Para realizar los calculos de probabilidad utilizamos la función pnorm() que nos permite obtener la función de disttribución normal
# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?
pnorm(200, mean = 200, sd = 20) - pnorm(100, mean = 200, sd = 20)## [1] 0.4999997
# ¿Cuál es la probabilidad de que el nivel de colesterol sea inferior a 150 mg/100 ml?
pnorm(150, mean = 200, sd = 20)## [1] 0.006209665
# ¿Cuál es la probabildiad de que el nivel de colesterol sea superior a 225 mg/100 ml?
1 - pnorm(225, mean = 200, sd = 20)## [1] 0.1056498
# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?¿Cuál es la probabilidad de que el nivel de colesteril se sitúe entre 190 y 210 mg/100 ml?
pnorm(210, mean = 200, sd = 20) - pnorm(190, mean = 200, sd = 20)## [1] 0.3829249
Dada una variable aleatoria \(X\) con distribución de probabilidad \(N(\mu,\sigma^2)\) la variable aleatoria \(Z\) definida como \[Z=\frac{X-\mu}{\sigma}\] tiene una distribución de probabilidad \(N(0,1)\) (denominada Normal estándar), es decir, \[Z \sim N(0,1)\]
La tipificación toma la distribución de una variable aleatoria y la transforma en otra sin más que restar por la media y dividir por la desviación típica. Esta distribución tipificada se utiliza habitualmente para el cálculo de probabilidades y para representar variables que no dependen de la media ni la desviación típica. En este caso \(E(Z) = 0\) y \(V(Z) = 1\).
En este enlace se pueden realizar los cálculos de probabilidad (así como su representación gráfica) asociados con la normal estándar.
Para los datos del ejemplo anterior, los valores tipificados en cada situación vienen dados por:
# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?
(200 - 200) / 20## [1] 0
(100 - 200) / 20## [1] -5
# ¿Cuál es la probabilidad de que el nivel de colesterol sea inferior a 150 mg/100 ml?
(150 - 200) / 20## [1] -2.5
# ¿Cuál es la probabildiad de que el nivel de colesterol sea superior a 225 mg/100 ml?
(225 - 200) / 20## [1] 1.25
# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?¿Cuál es la probabilidad de que el nivel de colesteril se sitúe entre 190 y 210 mg/100 ml?
(210 - 200) / 20## [1] 0.5
(190 - 200) / 20## [1] -0.5
Utilizando el enlace anterior comprueba que las probabildiades obtenidas son las mismas que las obtenidas anteriormente.
A partir de la distribución de probabilidad Normal se pueden obtener otras distribuciones de probabilidad que resultan de gran utilidad para los procesos de generalización de resultados de un diseño experimental a una población que veremos en la unidad siguiente.
Sean n variables aleatorias \(X_1,...,X_n\) independientes entre sí cuya distribución de probabilidad es idéntica para todas ellas e igual a una Normal estándar (\(N(0,1)\)). Si definimos la variable aleatoria suma como: \[X = X_1 + ... + X_n,\] entonces decimos que \(X\) se distribuye según una distribución Chi-cuadrado con \(n\) grados de libertad y la denotamos por \[X \sim \chi^2_n.\]
Si tenemos dos variables aleatorias independientes \(Y\) y \(Z\) con distribuciones de probabilidad \[Z \sim N(0,1); Y \sim \chi^2_n,\] y consideramos la variable aleatoria \(X\) dada por: \[X = \frac{Z}{\sqrt{Y/n}},\] entonces decimos que dicha variable sigue una distribución \(t\) de Student con \(n\) grados de libertad, y se denota por \[X \sim t_n.\]
Si tenemos dos variables aleatorias independientes \(Y\) y \(Z\) con distribuciones de probabilidad \[Z \sim \chi^2_n; Y \sim \chi^2_m,\] y consideramos la variable aleatoria \(X\) dada por: \[X = \frac{Z/n}{Y/m},\] entonces decimos que dicha variable sigue una distribución \(F\) de Snedecor con \(n\) y \(m\) grados de libertad, y se denota por \[X \sim F_{n,m}.\]
En este punto se presentan otras distribuciones de probabilidad que aunque resultan muy habituales en la práctica no son el objetivo de este temario. Se muestran como ejemplos de otros tipos de distribuciones.
La distribución de probabilidad Geométrica es de tipo discreto y se utiliza para modelizar situaciones experimentales donde se está interesado en saber cuantos fracasos han ocurrido hasta que aparece un éxito. Un ejemplo habitual es contar el número de piezas sin defectos hasta que encontramos una con defecto. Si \(\theta\) denota la probabilidad de éxito, la función de densidad de probabilidad de una variable aleatoria \(X\) de tipo geométrica, \(X \sim Ge(\theta)\) viene dada por: \[f(x) = (1 - \theta)^k \theta, k=1,2,3,...\] donde \(k\) representa el número de fracasos, es decir, que la función de densidad representa la probabilidad de encontrar \(k\) fracasos hasta el primer éxito. Una vez especifica la probabilidad de éxito \(\theta\) tenemos que: \[E(X) = \frac{1}{\theta}\] \[V(X) = \frac{1-\theta}{\theta^2}\] \[DT(X) = \sqrt{\frac{1-\theta}{\theta^2}}\] Para los cálculos de probabilidad debemos usar las funciones dgeom() y pgeom().
La distribución exponencial es el equivalente continuo de la distribución geométrica discreta. Esta distribución describe procesos en los que nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado nada.
Ejemplos de este tipo de distribuciones son:
La distribución exponencial viene completamente especificada, a través del parámetro \(\lambda >0\) que mide el número medio de veces que ocurre el evento de interés, mediante la función de densidad: \[f(x) =\lambda e^{-\lambda t}, t \geq 0\] Si \(X \sim Exp(\lambda)\) entonces tenemos que: \[E(X) = \frac{1}{\lambda}\] \[V(X) = \frac{1}{\lambda^2}\] \[DT(X) = \frac{1}{\lambda}\] Para los cálculos de probabilidad debemos usar las funciones dexp() y pexp().
Copyright © 2018 Javier Morales. Universidad Miguel Hernández de Elche.