Distribuciones de probabilidad
Variable aleatoria: Son aquellas resultado del azar en algun evento o experimento.
Variables aleatorias discretas: Son resultado del conteo de eventos u objetos, numeros enteros.
Variables aleatorias continuas: Son resultado generalmente d ela medicion directa de algun fenómeno y sus valores están dentro de un rango.
Distribucion normal
Es la más utilizada para entender los fenomenos naturales, biológicos, sociales, sistemas.
Continua
- Calcular la probabilidad de que \(X\) sea menor a 48, teniendo una media de 50 y una varianza de 25.
pnorm(48, mean = 50, sd=sqrt(25), lower.tail=TRUE)## [1] 0.3445783
La probabilidad de que obtengamos un valor menor a 48 es de 34.4%
Ahora, cual es la probabilidad de obtener un valor mayor a 48:
pnorm(48, mean = 50, sd=sqrt(25), lower.tail = FALSE)## [1] 0.6554217
Segundo ejemplo de distribución normal utilizando datos continuos de lluvia para la estación Hermosillo II.
Datos
her <- c(16.8, 18.3, 20.4, 23.6, 27.3, 31.7, 32.3, 31.8, 30.8, 26.7, 21.1, 17.0)Media y desviación estandar
media <- mean(her)
desviacion <- sd(her)¿Cual es la probabilidad de que en Hermosillo lluevan 30 milimetros en un mes?
Estimar usando la función de densidad de probabilidad normal.
pnorm(30, mean = media, sd = desviacion, lower.tail = TRUE)## [1] 0.8048959
Distribución exponencial
Calcula la probabilidad cuando la función de que estos eventos sucedan se comporta como una función exponencial.
curve(dexp(x), from = 0, to = 10)#Densidad de una exponencial de media 1 entre 0 y 10Distribución binomial
Representa el conteo de exitos en comparacion con los fracasos cuando los eventos no suceden de forma exponencial.
x <- rbinom(20,1,0.5) #0.5 representa que hay una equiprobabilidad entre tener exito y no tenerlo.
x## [1] 0 1 0 0 1 0 0 1 0 0 0 0 1 1 1 1 1 0 0 1
Nos muestra un vector que representan los exitos y fracasos: 1 representa exito, 0 representa fracaso, con una misma probabilidad.
- Contando exitos vs fracasos
table(x)## x
## 0 1
## 11 9
- Ejemplo: Distribución normal
En una distribución normal, el eje de las x representa el valor y en las y su probabilidad, conforme más nos acerquemos al media la probabilidad será más alta.
La distribución normal sirve para poder determinar con que frecuencia suceden los eventos aleatorias y poder analizarlo desde una perspectiva de la probabilidad frecuentista.
Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación estandar es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)## [1] 0.8413447
- Para calcular el cuantil 0.7 de una variable aleatoria normal estándar Z, es decir, un valor X tal que:
qnorm(0.7)## [1] 0.5244005
- Para calcular el mismo cuantil, pero para una variable aleatoria normal de media 0 y una desviación estándar de 0.5:
qnorm(0.7, sd=0.5)## [1] 0.2622003
El valor de \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Ejemplos:
qnorm(0,975)## [1] -Inf
- Para generar una muestra de tamaño 100 de una población normal con media de 10 y desviación estándar de 1, guardandola en un vector x:
x <- rnorm(100, mean=10, sd=1)
x## [1] 12.317026 10.339279 10.354710 9.486037 10.340848 8.738986 9.393196
## [8] 9.643122 10.423182 8.814155 9.911185 9.582809 9.182173 11.032349
## [15] 9.359044 10.228404 11.006696 8.965260 10.295421 8.925748 11.068755
## [22] 10.193359 10.664657 9.055236 8.199138 10.808310 10.812002 9.824461
## [29] 10.024453 9.383625 11.063937 10.067068 9.616336 12.240967 9.603481
## [36] 7.928164 9.937259 9.116386 9.224277 9.726240 8.725211 9.815081
## [43] 9.690572 8.417226 9.651621 9.325470 9.964720 9.665930 10.688562
## [50] 8.848047 11.026216 10.625336 10.350357 11.371768 8.922793 9.336955
## [57] 9.062430 9.991757 10.574391 9.060932 10.327119 9.101881 11.695852
## [64] 10.049682 8.286768 9.680013 10.333056 9.985090 10.966599 9.403779
## [71] 9.572787 11.022575 11.863844 9.669303 8.199283 9.891098 11.432482
## [78] 9.578242 11.235370 9.265433 10.276590 10.764275 10.293796 11.788533
## [85] 9.759878 9.245802 10.092002 9.739017 11.184184 10.183934 11.434195
## [92] 8.037668 7.914719 10.883310 8.343663 11.426960 8.459067 10.088076
## [99] 11.364169 9.644902
- Para estimar el promedio de x:
mean(x)## [1] 9.944981
- Histograma de frecuencias para el vector x
El muestreo de una población de 100 con media de 10, claramente tiene su media, con algunos valores más desviados a los extremos.
hist(x)- Grafico de caja y bigotes
boxplot(x)- Histograma de la muestra (normalizado)
hist(x, freq=FALSE) # Freq = FALSE, estable que el area del histograma esté normalizada a 1.
curve(dnorm(x, mean=10, sd=1), from = 7, to = 13, add = TRUE)