Distribuciones de Probabilidad
Variable aleatoria: Son aquellas resultado al azar de algun evento o experimento.
Variables aleatorias discretas: Son resultado del conteo de eventos u objetos, numeros enteros.
Variables aleatorias continuas: Son resultado generalmente de la medicion directa de algun fenomeno y sus valores estan dentro de un rango.
Distribucion Normal
Es la mas ultilizada para entender los fenomenos naturales, biologicos, sociales. sistemas.
Continuas
- Calacular la probabilidad de que \(x\) sea menor a 48, teniendo una media de 50 y una varianza de 25.
pnorm(48, mean = 50, sd= sqrt(25), lower.tail = TRUE)## [1] 0.3445783
La probabilidad de que obtengamos un valor menor a 48 es de 34.4%
pnorm(48, mean = 50, sd= sqrt(25), lower.tail = FALSE)## [1] 0.6554217
La probabilidad de que obtengamos un valor mayor a 48 es de 65.5%
- datos de las normales climatologicas del periodo de 1951 a 2010 de Hermosillo, Sonora, estacion HERMOSILLO II
her <- c(16.8, 18.3, 20.4, 23.6, 27.3, 31.7, 32.3, 31.8, 30.8, 26.7, 21.1, 17.0)media= mean(her)
desviacion = sd(her)Probabilidad de que llueva en un mes 30 milimetros o menos
pnorm(30, mean= media, sd=desviacion,lower.tail = TRUE)## [1] 0.8048959
Funciones en R
En R, cada districbucón de probabilidad se nombrea mediante la palabra clave o alias. las palabras clave para las distribuciones mas importantes son:
- Distribución Alias
- Distribución binomial binom
- Distribución de poisson pos
- Distribución normal norm
- Distribución exponencial exp
- Distribución t de studen t
- Distribución chi2 chisq
- Distribución F f
\[ \begin{array}{l|l|l|c} \text{Funcion} &\text{Significado} & \text{Uso} & \text{Observacion}\\ \hline p & \text{probability} & \text{Calcula Probabilidades acumuladas (cdfh)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula Probabilidades puntuales} & \text{Solo uso grafico continuo}\\ y & \text{random} & \text{Calcula datos aleatorios según una distribucion especifica} & \text{---}\\ \hline \end{array} \]
Distribucion exponencial
curve(dexp(x), from = 0, to = 10)Distribucion Binomial
x <- rbinom(20, 1, 0.5)
x## [1] 0 1 1 0 1 1 0 0 1 1 0 1 0 0 1 1 0 0 1 0
Contando exitos vs Fracasos
table(x)## x
## 0 1
## 10 10
Ejemplo: Distribución Normal
si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación tipica es 0.5, la prbabilidad de que x sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean = 3, sd = 0.5)## [1] 0.8413447
- Para calcular el cuantil 0.7 de una variable aleatoria normal estandar Z, es decir, un valor x tal que
qnorm(0.7)## [1] 0.5244005
- Para calcular el mismo cuantil pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)## [1] 0.2622003
- El valor \(z_\alpha\) que aparece en muchas de las formulas para intervalos y contrastes se obtiene del comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)## [1] 1.959964
- Para generar una muestra de tamaño 100 de una poblacion normal de medida 10 y desviacion tipica 1 (y guardarla en un vector x)
x <- rnorm(100, mean = 10, sd = 1)
x## [1] 9.561410 8.804630 11.173989 9.965096 10.783161 9.331931 11.109927
## [8] 11.622667 10.726720 8.397106 10.971267 9.837070 10.297529 10.389015
## [15] 9.407781 10.111980 9.786151 10.176086 10.094430 10.061506 9.579116
## [22] 7.868481 9.643677 11.837428 8.958152 10.083655 12.139868 9.961952
## [29] 11.274565 10.918937 10.787697 8.634210 10.837649 8.001054 12.014006
## [36] 10.634583 9.231278 10.565589 8.998773 9.400352 9.485489 9.447007
## [43] 10.498826 9.097971 9.044039 9.606797 11.393630 8.481018 10.404207
## [50] 10.831848 10.264017 10.480593 8.107263 10.612476 9.782183 11.738386
## [57] 10.621915 9.614524 11.712905 7.671139 9.734488 10.736621 9.935199
## [64] 9.603374 9.623372 9.224884 11.101468 9.055236 10.448663 10.467809
## [71] 10.386647 7.402642 10.410728 9.391563 9.361315 9.876894 10.568338
## [78] 10.179385 11.211436 8.605500 10.708349 10.821987 10.111785 9.643010
## [85] 10.417236 10.892241 11.793258 10.696644 10.899394 9.694413 8.655031
## [92] 10.552926 10.274250 11.544867 10.106810 9.948699 10.854279 8.681760
## [99] 10.776894 9.448044
- Para estimar el promedio de x
mean(x)## [1] 10.06724
- Histograma de frecuencias
hist(x)- Gráfico de cajas y bigote
boxplot(x)- Histograma de la muestra (normalizado para que la suma de las areas de los rectangulos sean 1) junto con la densidad de la poblacion:
hist(x, freq = FALSE) #freq = false, para que el area del histograma sea 1, es decir, normalizarla
curve(dnorm(x, mean = 10, sd = 1), from = 7, to = 13, add = TRUE) #add = TRUE, esto empalmar a 2 graficasEjercicios
- Si z es una variable con distribucion normal estandar, calcula \(\mathbb{P}(−2.34<z<4.78)\)
valor1 <- 4.78
valor2 <- -2.34
valor1 <- pnorm(valor1, mean=0, sd=1)
valor2 <-pnorm(valor2, mean=0, sd =1)
valor1## [1] 0.9999991
valor2## [1] 0.00964187
P = (valor1 - valor2)
P## [1] 0.9903573
- Calcula el rango intercuartílico de una poblacion normal estándar
### Datos de nuestra poblacion
poblacion <- c(1,1,1,1,2,2,2,5,5,7,7,8,8,8,9,9)
sum <-summary(poblacion)
sum## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 1.75 5.00 4.75 8.00 9.00
## Obtenemos el valor de primer quantil y tercer quantil
primer <- sum[2]
tercer <- sum[5]
primer <- as.numeric(substr(primer,1,7))
tercer <- as.numeric(substr(tercer,1,7))
result <- tercer - primer
result## [1] 6.25
\(IQR = (3Q - 1Q)\) por lo tanto \(IQR=(4.75 - 1.75)=6.75\)
- Genera una muestra de tamaño 19 de población normal estandar. ¿cuál es la diferencia entre la media muestral y la poblacional? repite el ejercicio 3 veces y anota las 3 diferencias
- Primer intento:
set.seed(1)
x <- rnorm(19, mean=8, sd=1)
x## [1] 7.373546 8.183643 7.164371 9.595281 8.329508 7.179532 8.487429 8.738325
## [9] 8.575781 7.694612 9.511781 8.389843 7.378759 5.785300 9.124931 7.955066
## [17] 7.983810 8.943836 8.821221
summary(x)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.785 7.537 8.330 8.169 8.780 9.595
- Segundo Intento
set.seed(4)
x <- rnorm(19, mean=8, sd=1)
x## [1] 8.216755 7.457507 8.891145 8.595981 9.635618 8.689275 6.718753 7.786855
## [9] 9.896540 9.776863 8.566604 8.015719 8.383057 7.954863 8.034352 8.169027
## [17] 9.165027 7.955796 7.899632
summary(x)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.719 7.955 8.217 8.411 8.790 9.897
- Tercer Intento:
set.seed(3)
x <- rnorm(19, mean=8, sd=1)
x## [1] 7.038067 7.707474 8.258788 6.847868 8.195783 8.030124 8.085418 9.116610
## [9] 6.781143 9.267369 7.255218 6.868781 7.283642 8.252652 8.152046 7.692344
## [17] 7.046983 7.351757 9.224314
summary(x)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.781 7.151 7.707 7.813 8.224 9.267
- Diferencias En las 3 muestras hay diferencias en sus medidas de tendencia central a pesar de especificar la mediana en este caso valor 8 y la desviacion estandar 1, esto se debe a que los datos son traidos aleatoriamente
- Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\) ). Representa el gráfico de barras de los numeros obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
pois <- rpois(n= 1000, lambda = 1)
pois## [1] 1 0 0 2 0 1 1 0 0 0 0 2 0 0 2 4 2 2 1 0 0 0 2 0 2 0 2 0 2 1 0 0 2 2 2 3 1
## [38] 1 0 0 2 2 2 1 1 0 3 2 0 1 1 3 0 0 1 2 2 0 0 0 0 1 2 1 0 1 1 0 0 1 0 0 0 0
## [75] 0 0 2 1 2 1 0 1 1 2 2 0 1 1 1 1 2 0 0 1 0 0 2 1 0 0 1 1 1 0 1 2 2 0 1 2 1
## [112] 0 2 0 2 0 1 0 0 0 1 0 3 1 0 2 2 2 2 0 2 1 1 0 1 2 0 1 1 2 0 1 0 0 0 0 0 0
## [149] 2 0 0 0 1 2 0 1 1 1 2 2 1 0 1 2 0 1 2 1 1 1 2 0 1 1 1 0 0 3 0 0 1 1 0 2 1
## [186] 1 0 1 3 0 0 0 0 1 1 1 1 2 1 0 1 1 0 1 1 0 1 0 0 4 2 1 0 0 1 1 0 1 0 1 2 3
## [223] 2 3 1 1 3 1 0 0 1 0 0 1 3 3 0 0 0 0 0 0 0 0 0 1 0 1 1 5 2 1 1 1 0 1 0 1 3
## [260] 2 1 1 0 0 4 1 1 1 2 1 2 4 1 0 1 1 0 3 0 2 4 1 0 0 2 0 2 1 3 2 3 3 2 1 2 0
## [297] 0 3 2 0 2 0 1 0 0 1 1 1 0 0 0 2 2 0 4 2 0 1 0 2 0 3 1 0 0 2 1 0 1 1 0 0 0
## [334] 0 0 0 2 2 4 0 0 0 0 0 0 0 2 1 2 1 4 0 0 2 1 5 1 0 0 2 0 1 0 2 1 1 2 0 0 0
## [371] 0 1 3 2 0 3 3 1 0 1 0 1 0 0 0 2 2 1 0 0 2 1 0 0 1 1 3 1 3 2 1 2 1 1 3 1 0
## [408] 1 2 1 0 0 4 1 1 1 1 2 2 0 1 2 0 1 1 0 1 1 0 1 0 2 1 0 0 0 0 1 1 1 1 1 1 2
## [445] 2 4 1 0 2 0 2 0 2 1 1 1 1 2 1 2 4 1 0 0 2 0 1 1 0 0 3 2 1 0 0 1 0 2 1 1 0
## [482] 1 3 2 2 1 0 0 0 1 1 0 0 0 0 2 1 1 1 0 2 2 1 0 1 3 0 0 2 2 0 0 1 3 1 0 1 2
## [519] 2 1 0 1 1 1 1 2 0 1 1 1 3 1 0 2 3 3 1 0 2 2 0 3 2 4 0 2 0 0 1 2 2 0 1 4 0
## [556] 0 2 2 1 2 2 2 0 1 2 2 0 0 0 0 0 1 6 2 0 2 1 0 1 2 0 1 1 0 2 1 2 0 0 0 0 0
## [593] 1 0 1 1 0 0 1 0 1 1 0 0 2 2 1 0 1 0 4 1 1 0 0 0 1 1 1 0 0 2 0 2 0 2 1 3 0
## [630] 2 2 1 3 1 1 0 3 1 1 1 0 2 1 2 4 2 2 1 1 0 1 1 1 1 1 1 3 3 1 4 1 1 0 4 1 1
## [667] 1 1 1 1 1 2 1 1 0 0 3 1 1 0 1 0 2 1 1 0 0 3 0 0 2 2 4 3 0 2 1 0 3 2 1 0 2
## [704] 1 0 2 0 0 1 0 0 1 2 0 0 0 0 0 1 1 4 1 0 1 0 0 0 0 0 0 1 1 1 2 0 1 0 0 0 1
## [741] 0 1 1 1 0 0 1 1 1 0 2 0 0 2 0 0 0 2 1 3 1 0 4 1 2 0 1 2 1 0 1 1 2 2 4 1 1
## [778] 1 3 2 3 1 0 0 0 0 0 3 1 1 1 2 0 1 3 1 0 0 1 0 0 1 2 3 1 4 1 0 1 0 1 0 0 0
## [815] 0 2 1 2 3 3 0 2 1 1 0 0 2 1 3 0 0 0 1 1 1 0 1 0 1 1 0 0 1 0 1 1 2 2 0 1 2
## [852] 1 0 2 0 0 0 0 2 1 4 0 1 1 0 1 1 0 0 1 2 4 0 2 1 1 1 0 5 1 1 1 1 2 1 3 0 1
## [889] 0 0 4 0 1 1 0 1 2 1 3 1 2 2 2 1 1 0 0 1 1 1 3 2 0 0 2 0 0 1 0 5 0 2 1 0 3
## [926] 1 2 1 2 0 2 1 0 2 3 1 0 1 0 1 1 2 3 2 0 1 1 0 3 0 0 1 2 0 0 0 0 0 0 1 1 1
## [963] 0 0 0 1 1 0 1 0 1 2 1 0 0 0 1 1 0 1 0 2 1 2 0 0 1 1 0 0 1 2 0 1 2 0 1 0 2
## [1000] 1
- Calculando media
mean(pois)## [1] 1.022
- Calculando varianza
var(pois)## [1] 1.104621
- histograma
hist(pois)