U2A7

VictorCarvajalRomán

26/10/2020

setwd("~/PYE1112ITSON")
library(prettydoc)

Distribución normal

Distribución Normal Estandarizada

Una curva de densidad normal (o de Gauss) describe la densidad de probabilidades en la distribución de valores de observaciones (muestra) de una variable aleatoria, cuando el número de observaciones es bastante grande. Se aplica a muchas de las variables usualmente medidas en biología, aunque hay otras curvas de distribución de densidad, con formas parecidas a la normal (tipo campana), por ejemplo la t de Student.

Su forma general para una población, con la fórmula correspondiente, es la siguiente:

Distribución normal

La densidad de probabilidad para un valor x, en una población inmensamente grande (X), es 0, pues la probabilidad de un valor único, entre un número infinito de valores posibles de la variable, tiende a 0.

Debemos pensar en la densidad de probabilidad como la frecuencia de ocurrencia de un valor en un intervalo de valores de la variable continua $X, [x y x+dx] $

Si el valor de dx es infinitamente pequeño, entonces la función \(f_X(x)\) es la probabilidad de X en ese intervalo.

La curva de distribución de valores con μ=0 y σ=1 se conoce como la curva normal estandarizada, y su función de densidad de probabilidades es:

\[ Y_i = \frac{1}{\sqrt{2\pi}}.e^\frac{-X_i{^2}}{2}\qquad(1) \]

Tamaño de muestra y distribución normal

La curva normal estandarizada describe exactamente la densidad de probabilidades para un infinito número de valores de la variable; sin embargo usualmente nuestra muestra (o la población completa) contiene un número finito de valores, y esto produce desviaciones de los valores esperados según la curva normal estandarizada.

Vamos a visualizar cómo compara la curva normal, con histogramas de la frecuencia de valores de una variable aleatoria, con 30, 300, 3000, 30000, y 300000 valores.

#valores al azar de la distribución normal
randNorm <- rnorm(3000)
#calculo de su densidad
randDensity <- dnorm(randNorm)
#gráfica
library(ggplot2)
ggplot(data.frame(x = randNorm, y = randDensity)) + 
  aes(x = x, y = y) +
geom_point() + 
  labs(x = "Random Normal Variable", y = "Densidad")

ggplot(data.frame(x = randNorm), aes(x = x)) +
    geom_histogram(binwidth = 0.1) +
  labs(x = "Random Normal Variable", y = "Frecuencia")

Probabilidad a partir de una distribución normal

Utilizando los valores acumulados de la curva normal (integral) podemos calcular la proporción (o probabilidad) de observaciones que se encuentran antes o después de la medida de una observación.

Usando tabla de Z para distribución normal

Pero antes debemos estandarizar la escala de las mediciones a la curva normal estándar (μ=0 y σ=1); para esto usamos el valor Z: (Ecuación 2)

\[ Z = \frac{X_i - \mu}{\sigma}\qquad(2) \]

Tabla de probabilidades: https://drive.google.com/file/d/15JejXWAuKlln8Or5oSdYE6QqWC6m4jNo/view

Función pnorm para predecir probabilidades en R

La función pnorm nos permite calcular la proporción (probabilidad) de valores de una muestra que se encuentran antes o después de un valor Xi, siempre que conozcamos la media y desviación estándar de la muestra (¡asumiendo que los valores se distribuyen normalmente!). La función tiene la siguiente sintáxis:

pnorm(xi, mean = Xbarra, sd = s, lower.tail = TRUE o FALSE) xi: valor (cuantil) que divide los datos Xbarra: media de la muestra s: desviación estándar de la muestra lower.tail TRUE o FALSE: si queremos proporción antes o después del valor xi

#Calcular la proporción (o probabilidad) de valores menores de 6.6 mm en una distribución normal de tamaños de semillas, con media = 6.0 mm y desviación estándar = 1.1 mm:

pnorm(6.6, mean=6, sd=1.1, lower.tail = TRUE)
## [1] 0.7072795
#y la proporción de valores mayores de 5.4 mm:
pnorm(5.4, mean=6, sd=1.1, lower.tail = FALSE)
## [1] 0.7072795
#también podemos calcular la proporción de valores entre dos valores (o fuera de esos dos valores)
props <- pnorm( c(5.4,6.6), mean=6.0, sd=1.1, lower.tail = TRUE  )
props
## [1] 0.2927205 0.7072795
#proporción de valores entre 5.4 mm y 6.6 mm
props[2] - props[1]
## [1] 0.4145591

Asignación:

  • ¿Cuáles son las principales aplicaciones (en su carrera) de la distribución normal?

La distribución normal en Ingeniería Mecatrónica se utiliza en estudios de estándares de calidad de los resultados de algun proceso, o producto mecatrónico, así como en medidas en piezas y refacciones, estimación de costos; sistemas de control de variables para la automatización, mediciones sobre partes manufacturadas, etc. Es una herramienta básica en el análisis de parámetros anteriormente mencionados.

  • Realice un caso de estudio aplicado (con datos) en el cual se requiera del cálculo de probabilidad con distribución normal.

Caso de estudio de eficiencia de combustible en carretera

  • Datos obtenidos de la biblioteca mpg (miles per galon) (ggplot2), datos de 1999 a 2008 de los 38 modelos de carros más populares en Estados Unidos

Audi A4

library(modeest)
library(tidyverse)
## Registered S3 method overwritten by 'httr':
##   method         from  
##   print.response rmutil
## -- Attaching packages --------------------------------------------------------- tidyverse 1.3.0 --
## v tibble  3.0.3     v dplyr   1.0.2
## v tidyr   1.1.1     v stringr 1.4.0
## v readr   1.3.1     v forcats 0.5.0
## v purrr   0.3.4
## -- Conflicts ------------------------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
mpghwy <- mpg$hwy

#Histograma de frecuencias
hist(mpghwy)

#Resumen estadístico
summary(mpghwy)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   18.00   24.00   23.44   27.00   44.00
#Moda
mfv(mpghwy)
## [1] 26
#Varianza
var(mpghwy)
## [1] 35.45778
#Desviación estándar
sd(mpghwy)
## [1] 5.954643
  • Los valores de tendencia central son cercanos entre ellos por lo que se dice que los datos forman una distribución normal; y no están tan dispersos de la media.

  • ¿Cuál es la probabilidad, de que teniendo cualquiera de esos modelos de carros, tenga una eficiencia de combustible en carretera igual o menor 24 galones de gasolina por milla (mpg)?

#Calcular la proporción (o probabilidad) de valores menores o iguales 24 mpg en una distribución normal con media = 23.44  y desviación estándar = 5.954643

pnorm(24, mean=23.44, sd=5.954643, lower.tail = TRUE)
## [1] 0.537463
  • La probabilidad es alta por ser un valor cercano a la media.

  • ¿E igual o menos a 30 mpg?

pnorm(30, mean=23.44, sd=5.954643, lower.tail = TRUE)
## [1] 0.8646955
#Y la proporción de valores mayores o iguales a 30 mpg:
pnorm(30, mean=23.44, sd=5.954643, lower.tail = FALSE)
## [1] 0.1353045
#También podemos calcular la proporción de probabilidad entre dos valores (o fuera de esos dos valores)
propsmpg <- pnorm( c(24,30), mean=23.44, sd=5.954643, lower.tail = TRUE)
propsmpg
## [1] 0.5374630 0.8646955
#Proporción de valores entre 24 y 30 mpg
propsmpg[2] - propsmpg[1]
## [1] 0.3272325

CONCLUSIÓN

La distribución normal es una herramienta estadística básica para el análisis de eventos no equiprobables que presentan cierta regularidad en la distribución de sus datos. Esta permite el cálculo sencillo de la probabilidad de uno más eventos, o la región entre o fuera de estos. Se ha usado en gran variedad de aplicaciones prácticas en las que las variables son altura, peso de una persona, coeficientes de inteligencia, mediciones científicas, mediciones físicas en áreas tales como los experimentos meteorológicos, los estudios acerca de las lluvias y las mediciones sobre partes manufacturadas, etc.