La probabilidad es el lenguaje matematico para cuantificar la insertidumbre. - Wasserman
Conceptos fundamentales de probabilidad
Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuencista de la probabilidad.
Probabilidad condicional y su relación con la independencia.
Regla de Bayes.
El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.
Ejemplo: si lanzamos una moneda dos veces, entonces
\[\Omega= \{AA, AS, SA, SS \} \]
Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila. \[ A=\{AA, AS\} \]
La probabilidad se puede ver como una extension de la idea de proporción o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Química hay 300 hombres y 700 mujeres
Si elegimos un estudiante de ingeniería quimica. ¿Cual es la probabilidad de que sea hombre? \[ \frac{300}{700}+300=0.3 \]
La probabilidad es entonces de 0.3
Eventos equiprobables: Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
Esto se consibe de la siguiente forma
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]
Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y dos mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la funcion para calcular las combinaciones es choose(n,r)
choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602
Las probabilidades se entienden como una aproximacion matematica de recuencias relativas cuando la frecuencia total tiende a 0.
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones
Supongamos que lanzamos la moneda 10 veces y obtenemos lo siguiente.
l10 <- sample(c("S", "A"),10, replace=TRUE)
l10
## [1] "A" "S" "S" "A" "A" "A" "S" "A" "S" "A"
cumsum(l10== "S")
## [1] 0 1 2 2 2 2 3 3 4 4
round(cumsum(l10== "S")/1:10,2)
## [1] 0.00 0.50 0.67 0.50 0.40 0.33 0.43 0.38 0.44 0.40
Funciones en R En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{observación}\\ \hline p & \text {probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end {array} \] Distribución Exponencial
curve(dexp(x), from = 0, to = 10)
#Representa la densidad de una exponencial de media 1 entre 0 y 10.
Distribución binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 1 0 0 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 1 1
#Genera 20 observaciones con distribución B(1, 0.5)
Contando éxitos vs Fracasos
table(x)
## x
## 0 1
## 13 7
E.g. Distribución normal Si \(X\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5, se calcula en R de esta forma:
pnorm(3.5, mean = 3, sd = 0.5)
## [1] 0.8413447
#p probabilidad, norm de distribución normal. sd desviación estándar
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd = 0.5)
## [1] 0.2622003
El valor \((z_\alpha \)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <-rnorm(100, mean = 10, sd=1)
x
## [1] 8.923456 10.185912 10.083722 8.772618 10.980669 9.549038 10.197841
## [8] 11.722809 8.647300 10.941509 9.941349 8.632057 9.589492 9.979357
## [15] 9.985162 9.220833 8.913316 9.475479 8.162137 9.630984 10.542531
## [22] 9.790019 9.986844 10.601111 10.294721 10.562698 11.393172 9.941122
## [29] 10.098010 9.588077 10.241117 10.452324 11.184602 9.243435 9.984333
## [36] 11.165057 7.511848 10.983666 10.342773 9.210543 10.698954 10.659451
## [43] 10.246349 10.552573 10.002383 10.575452 8.942690 11.257930 9.813031
## [50] 10.967297 10.435343 10.384666 10.275840 10.396685 10.350624 11.429388
## [57] 9.888848 11.301166 12.305970 8.145040 9.183521 10.515926 9.686517
## [64] 11.370871 9.612037 10.644963 9.787422 9.708964 9.224620 7.755706
## [71] 8.983339 11.180623 10.143505 10.331915 9.541297 10.300446 8.609198
## [78] 8.562503 8.020455 10.761329 11.524068 11.741356 9.335769 9.107907
## [85] 9.771359 10.194039 10.401365 11.231111 8.920030 10.287265 10.239877
## [92] 8.947633 10.785047 9.543381 9.881022 9.936687 10.992567 10.241205
## [99] 9.092607 10.896696
mean(x)
## [1] 10.02279
hist(x)
boxplot(x)
hist(x,freq = FALSE)
#Freq = FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean = 10, sd = 1), from = 7, to = 13, add = TRUE)
#densidad normal
pnorm(4.78, mean = 0, sd = 1) - pnorm(-2.34, mean = 0, sd = 1)
## [1] 0.9903573
pob <- c(1,1,2,2,5,5,7,7,8,8,9,9)
s <- summary(pob)
s
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.000 6.000 5.333 8.000 9.000
rango <- as.numeric(substr(s[5],1,7)) - as.numeric(substr(s[2],1,7))
rango
## [1] 6
Primera muestra
set.seed(1)
x <- rnorm(10, mean = 5, sd = 1)
x
## [1] 4.373546 5.183643 4.164371 6.595281 5.329508 4.179532 5.487429 5.738325
## [9] 5.575781 4.694612
mean(x)
## [1] 5.132203
Segunda muestra
set.seed(2)
x <- rnorm(10, mean = 5, sd = 1)
x
## [1] 4.103085 5.184849 6.587845 3.869624 4.919748 5.132420 5.707955 4.760302
## [9] 6.984474 4.861213
mean(x)
## [1] 5.211152
Tercera muestra
set.seed(3)
x <- rnorm(10, mean = 5, sd = 1)
x
## [1] 4.038067 4.707474 5.258788 3.847868 5.195783 5.030124 5.085418 6.116610
## [9] 3.781143 6.267369
mean(x)
## [1] 4.932864
Diferencias En las 3 muestras hay pequeñas diferencias en su media muestral pero es una diferencia insignificante en relación a la media poblacional que era de 5.
Genera 1000 números con distribución de Poisson de parámetro λ=1. Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
p <- rpois(n = 1000, lambda = 1)
p
## [1] 0 0 0 0 0 2 1 2 1 2 1 1 0 1 0 0 2 0 1 0 0 2 0 1 1 0 0 0 0 2 0 0 2 4 2 2 1
## [38] 0 0 0 2 0 2 0 2 0 2 1 0 0 2 2 2 3 1 1 0 0 2 2 2 1 1 0 3 2 0 1 1 3 0 0 1 2
## [75] 2 0 0 0 0 1 2 1 0 1 1 0 0 1 0 0 0 0 0 0 2 1 2 1 0 1 1 2 2 0 1 1 1 1 2 0 0
## [112] 1 0 0 2 1 0 0 1 1 1 0 1 2 2 0 1 2 1 0 2 0 2 0 1 0 0 0 1 0 3 1 0 2 2 2 2 0
## [149] 2 1 1 0 1 2 0 1 1 2 0 1 0 0 0 0 0 0 2 0 0 0 1 2 0 1 1 1 2 2 1 0 1 2 0 1 2
## [186] 1 1 1 2 0 1 1 1 0 0 3 0 0 1 1 0 2 1 1 0 1 3 0 0 0 0 1 1 1 1 2 1 0 1 1 0 1
## [223] 1 0 1 0 0 4 2 1 0 0 1 1 0 1 0 1 2 3 2 3 1 1 3 1 0 0 1 0 0 1 3 3 0 0 0 0 0
## [260] 0 0 0 0 1 0 1 1 5 2 1 1 1 0 1 0 1 3 2 1 1 0 0 4 1 1 1 2 1 2 4 1 0 1 1 0 3
## [297] 0 2 4 1 0 0 2 0 2 1 3 2 3 3 2 1 2 0 0 3 2 0 2 0 1 0 0 1 1 1 0 0 0 2 2 0 4
## [334] 2 0 1 0 2 0 3 1 0 0 2 1 0 1 1 0 0 0 0 0 0 2 2 4 0 0 0 0 0 0 0 2 1 2 1 4 0
## [371] 0 2 1 5 1 0 0 2 0 1 0 2 1 1 2 0 0 0 0 1 3 2 0 3 3 1 0 1 0 1 0 0 0 2 2 1 0
## [408] 0 2 1 0 0 1 1 3 1 3 2 1 2 1 1 3 1 0 1 2 1 0 0 4 1 1 1 1 2 2 0 1 2 0 1 1 0
## [445] 1 1 0 1 0 2 1 0 0 0 0 1 1 1 1 1 1 2 2 4 1 0 2 0 2 0 2 1 1 1 1 2 1 2 4 1 0
## [482] 0 2 0 1 1 0 0 3 2 1 0 0 1 0 2 1 1 0 1 3 2 2 1 0 0 0 1 1 0 0 0 0 2 1 1 1 0
## [519] 2 2 1 0 1 3 0 0 2 2 0 0 1 3 1 0 1 2 2 1 0 1 1 1 1 2 0 1 1 1 3 1 0 2 3 3 1
## [556] 0 2 2 0 3 2 4 0 2 0 0 1 2 2 0 1 4 0 0 2 2 1 2 2 2 0 1 2 2 0 0 0 0 0 1 6 2
## [593] 0 2 1 0 1 2 0 1 1 0 2 1 2 0 0 0 0 0 1 0 1 1 0 0 1 0 1 1 0 0 2 2 1 0 1 0 4
## [630] 1 1 0 0 0 1 1 1 0 0 2 0 2 0 2 1 3 0 2 2 1 3 1 1 0 3 1 1 1 0 2 1 2 4 2 2 1
## [667] 1 0 1 1 1 1 1 1 3 3 1 4 1 1 0 4 1 1 1 1 1 1 1 2 1 1 0 0 3 1 1 0 1 0 2 1 1
## [704] 0 0 3 0 0 2 2 4 3 0 2 1 0 3 2 1 0 2 1 0 2 0 0 1 0 0 1 2 0 0 0 0 0 1 1 4 1
## [741] 0 1 0 0 0 0 0 0 1 1 1 2 0 1 0 0 0 1 0 1 1 1 0 0 1 1 1 0 2 0 0 2 0 0 0 2 1
## [778] 3 1 0 4 1 2 0 1 2 1 0 1 1 2 2 4 1 1 1 3 2 3 1 0 0 0 0 0 3 1 1 1 2 0 1 3 1
## [815] 0 0 1 0 0 1 2 3 1 4 1 0 1 0 1 0 0 0 0 2 1 2 3 3 0 2 1 1 0 0 2 1 3 0 0 0 1
## [852] 1 1 0 1 0 1 1 0 0 1 0 1 1 2 2 0 1 2 1 0 2 0 0 0 0 2 1 4 0 1 1 0 1 1 0 0 1
## [889] 2 4 0 2 1 1 1 0 5 1 1 1 1 2 1 3 0 1 0 0 4 0 1 1 0 1 2 1 3 1 2 2 2 1 1 0 0
## [926] 1 1 1 3 2 0 0 2 0 0 1 0 5 0 2 1 0 3 1 2 1 2 0 2 1 0 2 3 1 0 1 0 1 1 2 3 2
## [963] 0 1 1 0 3 0 0 1 2 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 2 1 0 0 0 1 1 0 1 0
## [1000] 2
mean(p)
## [1] 1.02
var(p)
## [1] 1.106707
Los datos efectivamente, son parecidos a los valores técnicos.