U2A7

Jorge Valenzuela Parra

22/10/2020

setwd("~/PyE3")
library(pacman)
p_load("prettydoc", "readr", "ggplot2", "DT", "modeest")
u2a7 <- read_csv("u2a7.csv", col_types = cols(meses = col_number(), 
    value = col_number()))

Distribución normal

Distribución Normal Estandarizada

Una curva de densidad normal (o de Gauss) describe la densidad de probabilidades en la distribución de valores de observaciones (muestra) de una variable aleatoria, cuando el número de observaciones es bastante grande. Se aplica a muchas de las variables usualmente medidas en biología, aunque hay otras curvas de distribución de densidad, con formas parecidas a la normal (tipo campana), por ejemplo la t de Student.

Su forma general para una población, con la fórmula correspondiente, es la siguiente:

Distribución normal

La densidad de probabilidad para un valor x, en una población inmensamente grande (X), es 0, pues la probabilidad de un valor único, entre un número infinito de valores posibles de la variable, tiende a 0.

Debemos pensar en la densidad de probabilidad como la frecuencia de ocurrencia de un valor en un intervalo de valores de la variable continua $X, [x y x+dx] $

Si el valor de dx es infinitamente pequeño, entonces la función \(f_X(x)\) es la probabilidad de X en ese intervalo.

La curva de distribución de valores con μ=0 y σ=1 se conoce como la curva normal estandarizada, y su función de densidad de probabilidades es:

\[ Y_i = \frac{1}{\sqrt{2\pi}}.e^\frac{-X_i{^2}}{2}\qquad(1) \]

Tamaño de muestra y distribución normal

La curva normal estandarizada describe exactamente la densidad de probabilidades para un infinito número de valores de la variable; sin embargo usualmente nuestra muestra (o la población completa) contiene un número finito de valores, y esto produce desviaciones de los valores esperados según la curva normal estandarizada.

Vamos a visualizar cómo compara la curva normal, con histogramas de la frecuencia de valores de una variable aleatoria, con 30, 300, 3000, 30000, y 300000 valores.

#valores al azar de la distribución normal
randNorm <- rnorm(3000)
#calculo de su densidad
randDensity <- dnorm(randNorm)
#gráfica
ggplot(data.frame(x = randNorm, y = randDensity)) + 
  aes(x = x, y = y) +
geom_point() + 
  labs(x = "Random Normal Variable", y = "Densidad")

ggplot(data.frame(x = randNorm), aes(x = x)) +
    geom_histogram(binwidth = 0.1) +
  labs(x = "Random Normal Variable", y = "Frecuencia")

Probabilidad a partir de una distrubución normal

Utilizando los valores acumulados de la curva normal (integral) podemos calcular la proporción (o probabilidad) de observaciones que se encuentran antes o después de la medida de una observación.

Usando tabla de Z para distribución normal

Pero antes debemos estandarizar la escala de las mediciones a la curva normal estándar (μ=0 y σ=1); para esto usamos el valor Z: (Ecuación 2)

\[ Z = \frac{X_i - \mu}{\sigma}\qquad(2) \]

Tabla de probabilidades: https://drive.google.com/file/d/15JejXWAuKlln8Or5oSdYE6QqWC6m4jNo/view

Función pnorm para predecir probabilidades en R

La función pnorm nos permite calcular la proporción (probabilidad) de valores de una muestra que se encuentran antes o después de un valor Xi, siempre que conozcamos la media y desviación estándar de la muestra (¡asumiendo que los valores se distribuyen normalmente!). La función tiene la siguiente sintáxis:

pnorm(xi, mean = Xbarra, sd = s, lower.tail = TRUE o FALSE) xi: valor (cuantil) que divide los datos Xbarra: media de la muestra s: desviación estándar de la muestra lower.tail TRUE o FALSE: si queremos proporción antes o después del valor xi

#Calcular la proporción (o probabilidad) de valores menores de 6.6 mm en una distribución normal de tamaños de semillas, con media = 6.0 mm y desviación estándar = 1.1 mm:

pnorm(6.6, mean=6, sd=1.1, lower.tail = TRUE)
## [1] 0.7072795
#y la proporción de valores mayores de 5.4 mm:
pnorm(5.4, mean=6, sd=1.1, lower.tail = FALSE)
## [1] 0.7072795
#también podemos calcular la proporción de valores entre dos valores (o fuera de esos dos valores)
props <- pnorm( c(5.4,6.6), mean=6.0, sd=1.1, lower.tail = TRUE  )
props
## [1] 0.2927205 0.7072795
#proporción de valores entre 5.4 mm y 6.6 mm
props[2] - props[1]
## [1] 0.4145591

Asignación:

  • ¿cuáles son las principales aplicaciones (en su carrera) de la distribución normal?

En la ingeniería en electrónica una aplicación muy utilizada es en sistemas de entradas aleatorias, ya sea en lecturas de sensores o procesamiento de señales para a partir de los resultados, gráficos y curvas generadas poder optimizar el sistema a futuro con la retroalimentación de las lecturas mismas, pues ya podríamos predecir el comportamiento del sistema tal como es y como modificarlo para que se corrijan los errores.

  • Realice un caso de estudio aplicado (con datos) en el cual se requiera del cálculo de probabilidad con distribución normal.

Datos de equipos eléctricos manufacturados en Europa

Estos datos son el promedio de cada 4 meses de productos eléctricos (computadoras, electrónicos y productos ópticos) manufacturados en 17 países de la zona europea desde enero de 1996 hasta en marzo de 2012 según Industry new orders index.

Histograma de frecuencias

hist(u2a7$value)

ggplot(data.frame(x = u2a7$meses, y = u2a7$value)) + 
  aes(x = x, y = y) +
geom_point() + 
  labs(x = "Cuatrimestres transcurridos", y = "Cantidad de productos")

Media, mediana y moda

mean(u2a7$value)
## [1] 95.68549
median(u2a7$value)
## [1] 94.68
mfv(u2a7$value)
## [1]  88.09  89.27 103.48 104.35

Se tienen 4 modas y ninguna está cercana a la mediana, por lo cual no tiene tanto un comportamiento de distribución normal.

Desviación estándar y varianza

var(u2a7$value)
## [1] 174.4045
sd(u2a7$value)
## [1] 13.20623

Los datos se encuentran bastante dispersos entre ellos.

#Calcular la proporción (o probabilidad) de valores menores de 70 en una distribución normal de productos manufacturados, con media = 95.68549 y desviación estándar = 13.20623:

pnorm(70, mean=95.68549, sd=13.20623, lower.tail = TRUE)
## [1] 0.02589035

La probabilidad es pequeña pues ese valor en la gráfica está algo alejado de la media.

#y la proporción de valores mayores de 120:
pnorm(120, mean=95.68549, sd=13.20623, lower.tail = FALSE)
## [1] 0.03280057

De igual modo con la alta manufactura, que con la baja al estar alejado de la media, es muy poco probable que suceda un 120 en el cuatrimestre que viene.

#también podemos calcular la proporción de valores entre dos valores (o fuera de esos dos valores)
props <- pnorm( c(70,120), mean=95.68549, sd=13.20623, lower.tail = TRUE  )
props
## [1] 0.02589035 0.96719943
#proporción de valores entre 70 y 120
props[2] - props[1]
## [1] 0.9413091

Es una probabilidad mínima de que que el valor se encuentre fuera de esos rangos, y muy alta de que esté dentro de esos rangos, pues la gran mayoría de los datos de la muestra está entre esos dos límites.

Redacción personal

Este tipo de análisis demasiado útil para todos los campos en el que haya una muestra y en el que se requiera un una retroalimentación con respecto a eventos pasados, pues es más exacto y real que con probabilidad simple. Pues puedes encontrar una probabilidad para cada valor posible que se requiera saber incluso entre intervalos.