Distribuciones de probabilidad

En esta página se resume la información básica para manejar las principales distribuciones de probabilidad con R. Más información, incluyendo paquetes de R para distribuciones más especializadas, se puede encontrar aquí.

El nombre que recibe cada distribución

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

Distribución Alias
Distribución binomial binom
Distribución de Poisson pois
Distribución normal norm
Distribución exponencial exp
Distribución t de Student t
Distribución \( \chi^2 \) chisq
Distribución F f

Para obtener una lista completa de las distribuciones que R maneja hay que escribir help(Distributions).

Prefijos

Para cada distribución, hay 4 funciones relacionadas:

Los comandos para estas funciones se nombran anteponiendo un prefijo al alias de la distribución. Los prefijos son:

Funciones Prefijos
Función de distribución p
Función cuantílica q
Función de densidad (continuas) o de probabilidad (discretas) d
Generación de números aleatorios r

Por ejemplo, dexp(x) es la función de densidad de una distribución exponencial de media 1 mientras que rbinom(100, 1, 0.5) genera 100 números aleatorios con distribución \( B(1,0.5) \). Veamos algunos ejemplos en los que aparecen estos comandos:

curve(dexp(x), from = 0, to = 10)  # Representa la densidad de una exponencial de media 1 entre 0 y 10

plot of chunk unnamed-chunk-1

x <- rbinom(20, 1, 0.5)  # Genera 20 observaciones con distribución B(1,0.5)
x
##  [1] 1 0 0 1 0 0 1 0 1 1 0 1 0 1 1 0 1 0 0 0
table(x)  # Calcula las fecuencias absolutas de los valores generados
## x
##  0  1 
## 11  9

Para conocer los valores por defecto de los parámetros de cada distribución y cómo cambiarlos hay que consultar la ayuda de cada comando.

Ejemplo: la distribución normal

En este apartado vemos ejemplos más detallados para la distribución normal. Es posible comparar la solución que da R con la que obtendríamos usando las tablas de la normal.

pnorm(3.5, mean = 3, sd = 0.5)
## [1] 0.8413
qnorm(0.7)
## [1] 0.5244
qnorm(0.7, sd = 0.5)
## [1] 0.2622
qnorm(0.975)  # z_0.025
## [1] 1.96
qnorm(0.95)  # z_0.05
## [1] 1.645
qnorm(0.99)  # z_0.01
## [1] 2.326
x <- rnorm(100, mean = 10, sd = 1)
x
##   [1]  9.643 10.609  9.533  7.942 10.295  9.768 10.908  9.711 10.015  8.397
##  [11] 10.721 10.069 10.555 10.347  8.805  9.883  9.515 10.581  9.434  9.765
##  [21]  8.285 11.135 11.424 10.340 10.857 10.134 10.553 10.856 11.425 10.781
##  [31]  9.463  9.205  9.841  9.615 11.159 11.037  9.670  8.887 11.332 10.518
##  [41] 10.172  9.412  9.374  8.032 11.274 10.478 10.818 10.209 10.701  9.941
##  [51] 11.207 10.736 10.988  9.371  9.225  9.771  7.499  9.230  8.740 10.563
##  [61]  8.533  9.471 10.628  8.009 10.373 10.987  8.493 10.855 10.072  9.848
##  [71]  9.369  9.444 10.438 10.566  9.938  9.928 11.747  9.785  9.510 10.314
##  [81] 10.815  9.235  9.165  9.268  8.846 12.191  8.511  9.637 10.816  9.192
##  [91] 10.944  9.554 12.067  8.391  9.666 11.588  9.537 12.570  9.644 10.908

La descripción básica de x se obtiene de la siguiente forma:

mean(x)
## [1] 10.02
sd(x)
## [1] 0.9863
hist(x)

plot of chunk unnamed-chunk-8

boxplot(x)

plot of chunk unnamed-chunk-8

Representamos finalmente el histograma de la muestra (normalizado para que la suma de áreas de los rectángulos sea 1) junto con la densidad de la población:

hist(x, freq = FALSE)  # freq = FALSE para que el área del hist. sea 1
curve(dnorm(x, mean = 10, sd = 1), from = 7, to = 13, add = TRUE)

plot of chunk unnamed-chunk-9

Ejercicios

  1. Si \( Z \) es una variable con distribución normal estándar, calcula \( \mathbb{P}(-2.34 < Z < 4.78) \).

  2. Calcula el rango intercuartílico de una población normal estándar.

  3. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

  4. Genera 1000 números con distribución de Poisson de parámetro \( \lambda = 1 \). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?

  5. Calcula con R los siguientes valores: \( t_{3,\alpha} \), \( \chi^2_{3,\alpha} \), para \( \alpha = 0.05 \) y \( \alpha = 0.01 \). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.