Distribución normal
Distribución Normal Estandarizada
Una curva de densidad normal (o de Gauss) describe la densidad de probabilidades en la distribución de valores de observaciones (muestra) de una variable aleatoria, cuando el número de observaciones es bastante grande. Se aplica a muchas de las variables usualmente medidas en biología, aunque hay otras curvas de distribución de densidad, con formas parecidas a la normal (tipo campana), por ejemplo la t de Student.
Su forma general para una población, con la fórmula correspondiente, es la siguiente:
Distribución normal
La densidad de probabilidad para un valor x, en una población inmensamente grande (X
), es 0, pues la probabilidad de un valor único, entre un número infinito de valores posibles de la variable, tiende a 0.
Debemos pensar en la densidad de probabilidad como la frecuencia de ocurrencia de un valor en un intervalo de valores de la variable continua $X, [x y x+dx] $
Si el valor de dx es infinitamente pequeño, entonces la función \(f_X(x)\) es la probabilidad de X en ese intervalo.
La curva de distribución de valores con μ=0 y σ=1 se conoce como la curva normal estandarizada, y su función de densidad de probabilidades es:
\[ Y_i = \frac{1}{\sqrt{2\pi}}.e^\frac{-X_i{^2}}{2}\qquad(1) \]
Tamaño de muestra y distribución normal
La curva normal estandarizada describe exactamente la densidad de probabilidades para un infinito número de valores de la variable; sin embargo usualmente nuestra muestra (o la población completa) contiene un número finito de valores, y esto produce desviaciones de los valores esperados según la curva normal estandarizada.
Vamos a visualizar cómo compara la curva normal, con histogramas de la frecuencia de valores de una variable aleatoria, con 30, 300, 3000, 30000, y 300000 valores.
#valores al azar de la distribución normal
randNorm <- rnorm(3000)
#calculo de su densidad
randDensity <- dnorm(randNorm)
#gráfica
library(ggplot2)
ggplot(data.frame(x = randNorm, y = randDensity)) +
aes(x = x, y = y) +
geom_point() +
labs(x = "Random Normal Variable", y = "Densidad")
ggplot(data.frame(x = randNorm), aes(x = x)) +
geom_histogram(binwidth = 0.1) +
labs(x = "Random Normal Variable", y = "Frecuencia")
Probabilidad a partir de una distrubución normal
Utilizando los valores acumulados de la curva normal (integral) podemos calcular la proporción (o probabilidad) de observaciones que se encuentran antes o después de la medida de una observación.
Usando tabla de Z para distribución normal
Pero antes debemos estandarizar la escala de las mediciones a la curva normal estándar (μ=0 y σ=1); para esto usamos el valor Z: (Ecuación 2)
\[ Z = \frac{X_i - \mu}{\sigma}\qquad(2) \]
Tabla de probabilidades: https://drive.google.com/file/d/15JejXWAuKlln8Or5oSdYE6QqWC6m4jNo/view
Función pnorm para predecir probabilidades en R
La función pnorm nos permite calcular la proporción (probabilidad) de valores de una muestra que se encuentran antes o después de un valor Xi, siempre que conozcamos la media y desviación estándar de la muestra (¡asumiendo que los valores se distribuyen normalmente!). La función tiene la siguiente sintáxis:
pnorm(xi, mean = Xbarra, sd = s, lower.tail = TRUE o FALSE) xi: valor (cuantil) que divide los datos Xbarra: media de la muestra s: desviación estándar de la muestra lower.tail TRUE o FALSE: si queremos proporción antes o después del valor xi
#Calcular la proporción (o probabilidad) de valores menores de 6.6 mm en una distribución normal de tamaños de semillas, con media = 6.0 mm y desviación estándar = 1.1 mm:
pnorm(6.6, mean=6, sd=1.1, lower.tail = TRUE)
## [1] 0.7072795
## [1] 0.7072795
#también podemos calcular la proporción de valores entre dos valores (o fuera de esos dos valores)
props <- pnorm( c(5.4,6.6), mean=6.0, sd=1.1, lower.tail = TRUE )
props
## [1] 0.2927205 0.7072795
## [1] 0.4145591
Asignación:
- ¿Cuáles son las principales aplicaciones (en su carrera) de la distribución normal?
Se utiliza para inferir en los cambios o procesos de materiales de construccion, servicios laborales y otros elementos usados para la construccion de carreteras, puentes, acueductos, etc.,para poner al día las situaciones previas de los costos de construcción, igualmente para determinar el efecto de los cambios de precio sobre costos actuales de construcción y como ayuda en la preparación de presupuestos.
- Realice un caso de estudio aplicado (con datos) en el cual se requiera del cálculo de probabilidad con distribución normal.
Arboles de cerezo
Datos
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
Probabilidad
Calcule la probabilidad de que la circunferencia sea menor a 14, con una media de 13.24839 y desviacion estándar de 3.138139.
## [1] 0.5946442
Calcule la probabilidad de que la circunferencia sea mayor a 13, con una media de 13.24839 y desviacion estándar de 3.138139.
## [1] 0.5315441
## [1] 0.4684559 0.5946442
## [1] 0.1261884
Conlcusión
La distribución normal es un ejemplo importante referido a una variable aleatoria continua. Podemos usar la distribución normal como una herramienta para calcular probabilidades. Por ejemplo, puede usarse para aproximar la distribución binomial. Esta propiedad está en el origen de la curva normal.