U2A7

Marijose González del Real

23/Oct/2020

Distribución normal

Distribución Normal Estandarizada

Una curva de densidad normal (o de Gauss) describe la densidad de probabilidades en la distribución de valores de observaciones (muestra) de una variable aleatoria, cuando el número de observaciones es bastante grande. Se aplica a muchas de las variables usualmente medidas en biología, aunque hay otras curvas de distribución de densidad, con formas parecidas a la normal (tipo campana), por ejemplo la t de Student.

Su forma general para una población, con la fórmula correspondiente, es la siguiente:

Distribución normal

La densidad de probabilidad para un valor x, en una población inmensamente grande (X

), es 0, pues la probabilidad de un valor único, entre un número infinito de valores posibles de la variable, tiende a 0.

Debemos pensar en la densidad de probabilidad como la frecuencia de ocurrencia de un valor en un intervalo de valores de la variable continua $X, [x y x+dx] $

Si el valor de dx es infinitamente pequeño, entonces la función \(f_X(x)\) es la probabilidad de X en ese intervalo.

La curva de distribución de valores con μ=0 y σ=1 se conoce como la curva normal estandarizada, y su función de densidad de probabilidades es:

\[ Y_i = \frac{1}{\sqrt{2\pi}}.e^\frac{-X_i{^2}}{2}\qquad(1) \]

Tamaño de muestra y distribución normal

La curva normal estandarizada describe exactamente la densidad de probabilidades para un infinito número de valores de la variable; sin embargo usualmente nuestra muestra (o la población completa) contiene un número finito de valores, y esto produce desviaciones de los valores esperados según la curva normal estandarizada.

Vamos a visualizar cómo compara la curva normal, con histogramas de la frecuencia de valores de una variable aleatoria, con 30, 300, 3000, 30000, y 300000 valores.

#valores al azar de la distribución normal
randNorm <- rnorm(3000)
#calculo de su densidad
randDensity <- dnorm(randNorm)
#gráfica
library(ggplot2)
ggplot(data.frame(x = randNorm, y = randDensity)) + 
  aes(x = x, y = y) +
geom_point() + 
  labs(x = "Random Normal Variable", y = "Densidad")

ggplot(data.frame(x = randNorm), aes(x = x)) +
    geom_histogram(binwidth = 0.1) +
  labs(x = "Random Normal Variable", y = "Frecuencia")

Probabilidad a partir de una distrubución normal

Utilizando los valores acumulados de la curva normal (integral) podemos calcular la proporción (o probabilidad) de observaciones que se encuentran antes o después de la medida de una observación.

Usando tabla de Z para distribución normal

Pero antes debemos estandarizar la escala de las mediciones a la curva normal estándar (μ=0 y σ=1); para esto usamos el valor Z: (Ecuación 2)

\[ Z = \frac{X_i - \mu}{\sigma}\qquad(2) \]

Tabla de probabilidades: https://drive.google.com/file/d/15JejXWAuKlln8Or5oSdYE6QqWC6m4jNo/view

Función pnorm para predecir probabilidades en R

La función pnorm nos permite calcular la proporción (probabilidad) de valores de una muestra que se encuentran antes o después de un valor Xi, siempre que conozcamos la media y desviación estándar de la muestra (¡asumiendo que los valores se distribuyen normalmente!). La función tiene la siguiente sintáxis:

pnorm(xi, mean = Xbarra, sd = s, lower.tail = TRUE o FALSE) xi: valor (cuantil) que divide los datos Xbarra: media de la muestra s: desviación estándar de la muestra lower.tail TRUE o FALSE: si queremos proporción antes o después del valor xi

#Calcular la proporción (o probabilidad) de valores menores de 6.6 mm en una distribución normal de tamaños de semillas, con media = 6.0 mm y desviación estándar = 1.1 mm:

pnorm(6.6, mean=6, sd=1.1, lower.tail = TRUE)
## [1] 0.7072795

La probabilidad es alta debido a que está cercano a la media

#y la proporción de valores mayores a 5.4 mm:
pnorm(5.4, mean=6, sd=1.1, lower.tail = FALSE)
## [1] 0.7072795

El valor es el mismo debido a que se encuentra a la misma distancia de la media, es decir, 6.6-6 = 0.6 y 6-5.4 = 0.6

#También podemos calcular la proporción de valores entre dos valores (o fuea de esos dos valores)
props <- pnorm( c(5.4,6.6), mean = 6, sd = 1.1, lower.tail = TRUE)
props
## [1] 0.2927205 0.7072795
#Proporción de valores entre 5.4 mm y 6.6 mm
props[2] - props[1]
## [1] 0.4145591

Asignación:

  • ¿Cuáles son las principales aplicaciones (en su carrera) de la distribución normal?

La distribución normal en la Ingeniería Química es esencial para áreas de investigación como en la química analítica debido a que se observan las diversas concentraciones de soluciones y muestras. También se puede analizar las propiedaades de diversos componentes como la temperatura, el pH, etc.

  • Realice un caso de estudio aplicado (con datos) en el cual se requiera del cálculo de probabilidad con distribución normal.

Temperatura de pozos de agua subterránea (datos tomados del examen de PYE)

Pozos

library(pacman)
p_load("readr","modeest")
datos <- read_csv("pozos.csv")
## Parsed with column specification:
## cols(
##   PH = col_double(),
##   TEMP = col_double()
## )

Histograma de frecuencias

hist(datos$TEMP)

Distribución normal

Media y moda

mean(datos$TEMP)
## [1] 28.69795
mfv(datos$TEMP, method = "discrete")
## [1] 28.6

Los valores son casi iguales, por lo tanto, se afirma que es un comportamiento de distribución normal

Desviación estándar y varianza

var(datos$TEMP)
## [1] 1.035407
sd(datos$TEMP)
## [1] 1.017549

Los datos no se encuentran tan dispersos ni alejados a la media.

#Calcular la proporción (o probabilidad) de valores menores de 29 °C en una distribución normal de temperatura media en Cd. Obregón, con media = 28.69795 °C y desviación estándar = 1.017549 °C:

pnorm(29, mean=28.69795, sd=1.017549, lower.tail = TRUE)
## [1] 0.616706

La probabilidad es alta debido a que está cercano a la media y la moda

#y la proporción de valores mayores a 28:
pnorm(28, mean=28.69795, sd=1.017549, lower.tail = FALSE)
## [1] 0.753616

El valor de la probabilidad es más alto debido a que en el rango de temperaturas mayores a 28°C, son los valores que se repiten más, por ello, es más probable de que suceda que la temperatura del pozo sea de 28°C que de 29°C.

#También podemos calcular la proporción de valores entre dos valores (o fuera de esos dos valores)
props <- pnorm( c(28,29), mean = 28.69795, sd = 1.017549, lower.tail = TRUE)
props
## [1] 0.246384 0.616706
#Proporción de valores entre 28°C y 29°C
props[2] - props[1]
## [1] 0.3703219

Distribución

Conclusión

Es más probable que ocurra el evento más cercano a la moda en este caso, ya que no es completamente normal la distribución presentada porque si existe una variación entre la media y la moda. Sin embargo, se puede decir que también si el valor se encuentra cercano a la media tendrá una alta probabilidad porque solo varía algunos decimales con respecto a la moda. Además, se encuentra una desviación estándar pequeña, lo cual quiere decir que los datos no se encuentran tan dispersos ni muy alejados a la media. Finalmente con los resultados obtenidos, es más probable encontrar temperaturas mayores a 28°C que temperaturas menores a 28°C, debido a que son más los valores que coinciden con el primer intervalo.