La distribución Normal es una distribución de probabilidad continua que permite modelar muchos fenómenos naturales, sociales y psicológicos, razón de su importancia. También es la distribución que más aparece en estadística y en la teoría de probabilidades.
Fuente: Wikipedia
La variable aleatoria x representa cualquier valor real de la característica analizada.
Su función de densidad es:
\[\LARGE f(x) = \frac {1} {\sigma \sqrt{2\pi}} {e^{-\frac {(x-\mu)^2} {2\sigma^2}}}\]
En relación a esta distribución, R tiene 4 funciones:
Se pueden generar números aleatorios que provengan de una distribución normal con parámetros específicos.
CASO A. Calculemos 3 lotes de 10 valores aleatorios a partir de una distribución normal con media aritmética \(\mu\) = 1000 y desviación estándar \(\sigma\) = 27.
## [1] 1021.2162 971.5859 939.2968 1014.8011 1010.9332 964.3444 1005.2700
## [8] 971.2157 994.8497 976.4124
## [1] 1016.6640 1010.4444 982.9766 1035.6789 982.1342 1024.0056 999.9537
## [8] 958.2789 975.4229 997.1190
## [1] 1006.6816 994.1139 1008.7854 991.5030 1007.8227 1052.6485 992.2220
## [8] 950.0777 1024.9715 984.5620
CASO B. Calculemos 3 lotes de 10 valores aleatorios a partir de una distribución normal con media aritmética \(\mu\) = 7 y desviación estándar \(\sigma\) = 10.
## [1] -5.234765 10.731127 1.771112 13.239180 8.457182 2.811129 13.117708
## [8] -1.589767 7.024597 4.672191
## [1] -1.2546207 0.7938522 16.7571622 0.1494623 22.1027805 8.6022603
## [7] -1.2396500 19.6084534 3.6064861 -5.0197293
## [1] -20.943564 -4.274718 14.616365 6.407162 19.351565 -12.656556
## [7] 12.591182 -13.238165 -12.968705 15.468920
Observemos que en cada caso se obtienen diferentes rangos de valores porque aunque ambos casos son distribuciones Poisson, sus parámetros son diferentes.
En un fenómeno normal, nos interesa calcular probabilidades asociadas a rangos de valores para la variable aleatoria x.
Por ejemplo, si analizamos un fenómeno normal con media aritmética \(\mu\) = 100 y desviación estándar \(\sigma\) = 17, los valores posibles par la variable aleatoria es cualquier número real.
La función dnorm calcula la probabilidad puntual para cada valor, es decir, P(X = x).
## [1] 3.553594e-13 7.189783e-10 3.644720e-07 4.629273e-05 1.473201e-03
## [6] 1.174658e-02 2.346719e-02 1.174658e-02 1.473201e-03 4.629273e-05
## [11] 3.644720e-07 7.189783e-10 3.553594e-13
## [1] 3.553594e-13
## [1] 7.189783e-10
## [1] 3.64472e-07
## [1] 4.629273e-05
## [1] 0.001473201
## [1] 0.01174658
## [1] 0.02346719
## [1] 0.01174658
## [1] 0.001473201
## [1] 4.629273e-05
## [1] 3.64472e-07
## [1] 7.189783e-10
## [1] 3.553594e-13
La función pnorm calcula la probabilidad acumulada para cada resultado, es decir, P(X <= x).
## [1] 8.395908e-13 2.022373e-09 1.263851e-06 2.082423e-04 9.312790e-03
## [6] 1.197034e-01 5.000000e-01 8.802966e-01 9.906872e-01 9.997918e-01
## [11] 9.999987e-01 1.000000e+00 1.000000e+00
## [1] 8.395908e-13
## [1] 2.022373e-09
## [1] 1.263851e-06
## [1] 0.0002082423
## [1] 0.00931279
## [1] 0.1197034
## [1] 0.5
## [1] 0.8802966
## [1] 0.9906872
## [1] 0.9997918
## [1] 0.9999987
## [1] 1
## [1] 1
IMPORTANTE: Los últimos 2 resultados dan uno, pero esto es debido a la capacidad de almacenamiento numérico de la computadora, el resultado real es un número demasiado cercano a uno, por lo que al redondearse, se obtiene uno, pero no lo es. Recuerde que probabilidad de 1 significa que SIEMPRE OCURRE.
Podemos construir un data frame para una representación tabular de estos cálculos de probabilidad.
x <- c(-20, 0, 20, 40, 60, 80, 100, 120, 140, 160, 180, 200, 220)
tabla.normal <- data.frame(x,
dnorm(x, mean = 100, sd = 17),
pnorm(x, mean = 100, sd = 17))
names(tabla.normal) <- c('x', 'P(X = x)', 'P(X <= x)')
tabla.normal| x | P(X = x) | P(X <= x) |
|---|---|---|
| -20 | 0.0000000 | 0.0000000 |
| 0 | 0.0000000 | 0.0000000 |
| 20 | 0.0000004 | 0.0000013 |
| 40 | 0.0000463 | 0.0002082 |
| 60 | 0.0014732 | 0.0093128 |
| 80 | 0.0117466 | 0.1197034 |
| 100 | 0.0234672 | 0.5000000 |
| 120 | 0.0117466 | 0.8802966 |
| 140 | 0.0014732 | 0.9906872 |
| 160 | 0.0000463 | 0.9997918 |
| 180 | 0.0000004 | 0.9999987 |
| 200 | 0.0000000 | 1.0000000 |
| 220 | 0.0000000 | 1.0000000 |
Un cuantil asociado a una probabilidad p, se define como el valor más pequeño posible de la variable x que cumpla que F(x) >= p, donde F(x) es la función de probabilidad acumulada.
La función qnorm calcula el cuantil a partir de una probabilidad acumulada. Esta función es inversa a pnorm.
Por ejemplo, si tenemos un fenómeno normal con media aritmética \(\mu\) = 5000 y desviación estándar \(\sigma\) = 387, podemos calcular los cuantiles que corresponden a las probabilidades 0.25, 0.50, 0.75 con la siguiente instrucción:
## [1] 4738.972 5000.000 5261.028
A los empleados de una empresa se les aplica una prueba de competencias tecnológicas. Los resultados de la prueba a nivel global se distribuyen normalmente con una media aritmética de 527 puntos y una desviación estándar de 112 puntos.
Para responder, hay que calcular la probabilidad de que x sea mayor a 500 con la función pnorm usando un parámetro adicional que es lower.tail.
P(X > 500)
## [1] 0.5952501
El parámetro lower.tail con valor falso, calcula la probabilidad complementaria de la acumulada, es decir, obtiene P(X > x) en vez de P(X <= x).
Para responder, hay que calcular la probabilidad de que x sea menor o igual a 400 con pnorm.
P(X <= 400)
## [1] 0.1284123
Para responder, hay que calcular el cuantil que corresponde a la probabilidad indicada, usando la función qnorm con el parámetro adicional lower.tail.
## [1] 711.2236
Las siguientes son las funciones que es recomendable revisar la documentación para ir entendiendo que hace cada función y que opciones tiene.
rnormdnormpnormqnorm
Dr. José Luis Barrera Canto
Profesor Investigador
División de Ingeniería y Ciencias Exactas
Universidad Anáhuac Mayab