La probabilidad es el lenguaje matematico para cuantificar la insertidumbre - Wasserman
Conceptos fundamentales de probabilidad
1.- Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad
2.- Interpretación frecuencista de la probabilidad
3.- Probabilidad condicional y su relación con la independencia
4.- Regla de Bayes
Es espacio de resultados \(\Omega\) el conjunto de posibles resultados de un experimento aleatorio.
Ejemplo: Si lanzamos una moneda 2 veces, entonces
\[ \Omega=\{AA,SS,AS,SA\} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan con mayusculas.
Ejemplo: Que el primer lanzamiento resulte Aguila.
\[ A=\{AA, AS\} \]
La probabilidad se puede ver como una proporcion de una parte con respecto a un todo
Ejemplo: Si en ingenieria quimica tenemos 1000 estudiantes, de los cuales
Si elegimos un estudiante al azar de ingenieria quimica. Cual es la probabilidad de que sea hombre?
\[ \frac{300}{700+300}=0.3 \] La probabilidad entonces es de 0.3
Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
Ejemplo: Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y dos mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6} {3} \dbinom {9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
y la funcion para calcular las combinaciones es choose(n,r)
choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602
La probabilidades se entienden como una aproximacion matematica de frecuencias relativas cuando la frecuencia total tiende a cero.
Supongamos que lanzamos una moneda 10 veces y obtenemos lo siguiente:
lanzamientos_10<- sample(c("A","S"), 10, replace=TRUE)
lanzamientos_10
## [1] "A" "S" "S" "A" "A" "S" "S" "A" "A" "A"
cumsum(lanzamientos_10=="A")
## [1] 1 1 1 2 3 3 3 4 5 6
round(cumsum(lanzamientos_10=="A")/1:10,2)
## [1] 1.00 0.50 0.33 0.50 0.60 0.50 0.43 0.50 0.56 0.60
En R, cada distribucion de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distibuciones mas importantes son:
Distribucion Exponencial
curve (dexp(x), from = 0, to=10)
#Representa la densidad de una exponencial de media 1 entre 0 y 10
Distribucion binomial
x<- rbinom(20, 1, 0.5)
x
## [1] 1 0 1 0 1 0 0 1 0 1 1 1 1 0 0 0 0 0 1 0
#Genera 20 observaciones con distribucion B(1,0.5)
Contador exitos vs fracasos
table(x)
## x
## 0 1
## 11 9
Ejemplo: Distribucion normal
si \(X\)es una variable aleatoria, con distribucion normal de media 3, y su desviacion tipica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean = 3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas formulas para invervalos y contrastes obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean = 10, sd=1)
x
## [1] 10.538527 9.642414 10.566520 12.037104 9.885751 11.582608 11.807506
## [8] 11.208145 9.296846 10.893223 8.170226 12.121307 8.804824 9.659751
## [15] 11.195830 10.935008 9.571999 9.549465 9.651428 9.977269 8.365402
## [22] 10.352889 11.429870 10.245245 10.703025 9.702749 8.281051 11.782798
## [29] 9.929148 9.829858 10.845384 9.950424 9.213373 10.263445 10.442543
## [36] 10.067589 10.583056 10.328991 10.841882 8.472337 10.334649 9.623523
## [43] 11.797312 10.582571 9.695513 10.505081 9.706575 9.505040 11.839177
## [50] 10.768626 10.165444 10.102024 9.763072 10.987886 8.412196 9.066496
## [57] 9.537733 8.739148 10.108863 10.778146 10.312790 9.402055 8.666735
## [64] 10.227262 8.836782 9.830381 10.984195 10.227290 9.169645 11.131735
## [71] 10.346307 12.956428 8.260381 11.606943 9.290785 10.169516 10.465518
## [78] 7.504512 9.652251 10.145114 9.515329 9.324085 8.847033 11.485382
## [85] 9.048164 10.792956 10.024857 9.307824 10.243003 10.645348 10.961946
## [92] 11.242082 9.760011 11.453193 10.055760 8.982021 10.647938 7.168862
## [99] 9.643260 9.619820
mean(x)
## [1] 10.08701
hist(x)
boxplot(x)
*Histograma de la muestra (normalizado para que la suma de las areas de los rectangulos sea 1) junto con la densidad de la poblacioon
hist(x, freq = FALSE) #Sirve para que el area del histograma sea 1
curve(dnorm(x, mean = 10, sd=1), from = 7, to=13, add = TRUE)
Ejercicios:
pnorm(4.78, mean = 0, sd = 1) - pnorm(-2.34, mean = 0, sd = 1)
## [1] 0.9903573
p <- c(1,1,2,2,5,5,7,7,8,8,9,9)
su <- summary(p)
su
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.000 6.000 5.333 8.000 9.000
ra <- as.numeric(substr(su[5],1,7)) - as.numeric(substr(su[2],1,7))
ra
## [1] 6
ta<- rnorm(10, mean = 5, sd = 1)
ta
## [1] 5.432524 3.349641 4.362681 4.884556 5.552961 5.036381 4.507396 4.936524
## [9] 4.669172 6.198186
mean(ta)
## [1] 4.893002
ta<- rnorm(10, mean = 5, sd = 1)
ta
## [1] 6.957105 5.443083 5.316777 5.138473 2.577208 3.759550 7.290355 4.031420
## [9] 4.096918 6.067443
mean(ta)
## [1] 5.067833
ta<- rnorm(10, mean = 5, sd = 1)
ta
## [1] 4.145806 7.060121 3.425609 3.996532 6.864337 4.334138 4.577144 4.874324
## [9] 4.945157 6.025335
mean(ta)
## [1] 5.02485
En las tres muestras hechas hay diferencias muy pequeñas en lo que es la media muestral mientras que en la media poblacional es una diferencias mas notable de datos
gn<-rpois(n=1000, 1)
gn
## [1] 2 0 3 1 1 0 2 1 0 0 0 1 2 0 0 1 2 1 0 1 3 1 0 1 1 0 1 2 0 0 2 1 1 0 3 1 1
## [38] 1 1 1 0 0 2 1 2 1 2 1 1 1 0 3 0 1 0 1 0 1 2 2 3 0 0 1 0 1 2 0 0 3 1 1 1 1
## [75] 1 1 1 0 3 0 1 1 1 0 4 2 2 1 0 0 1 0 1 2 0 0 2 2 0 0 1 2 1 1 2 1 1 0 0 0 0
## [112] 0 1 1 1 2 0 1 0 0 1 1 1 0 0 2 2 0 0 2 0 0 2 1 0 0 0 0 2 1 1 0 0 2 1 3 1 0
## [149] 1 0 3 1 0 1 3 2 1 0 1 1 2 1 1 3 0 6 1 0 1 0 2 0 1 2 1 3 1 4 0 0 1 1 1 0 1
## [186] 0 0 0 0 0 3 0 2 0 1 3 0 0 0 2 0 0 1 1 1 0 1 1 0 1 1 0 0 0 1 2 4 1 0 1 1 0
## [223] 0 1 1 1 1 1 0 0 0 0 0 1 1 0 1 1 0 0 1 2 1 2 0 1 1 2 1 2 2 1 2 0 1 2 1 0 1
## [260] 0 1 1 1 0 1 1 1 2 4 3 0 0 1 0 2 2 1 2 0 3 2 1 2 1 2 2 4 0 2 1 0 1 1 1 1 1
## [297] 1 3 2 2 1 1 2 1 1 1 0 0 1 3 1 1 0 0 0 1 0 1 0 0 0 0 1 0 2 1 0 0 1 0 0 1 1
## [334] 0 3 0 1 0 0 1 0 0 1 3 0 2 0 0 2 1 2 1 1 0 1 0 2 3 0 0 0 0 2 1 1 5 2 1 0 1
## [371] 3 0 0 0 0 1 2 1 1 0 0 2 2 0 0 2 3 1 2 0 1 0 1 3 1 0 0 0 0 0 2 1 1 0 1 0 0
## [408] 1 0 2 0 2 0 2 2 2 3 2 1 2 2 2 2 1 0 0 1 1 4 2 1 0 0 2 1 0 1 2 1 2 0 2 0 0
## [445] 2 0 0 0 1 0 0 1 2 1 2 2 4 1 0 0 1 1 3 1 1 3 1 1 2 2 2 1 3 0 0 2 2 2 0 1 4
## [482] 2 1 0 0 4 0 1 2 3 1 0 0 2 0 1 0 1 2 1 0 0 1 1 0 2 1 1 1 0 1 3 2 0 1 0 1 0
## [519] 1 0 1 1 3 0 1 0 2 0 1 0 1 0 1 0 1 1 0 1 0 0 3 1 1 0 0 1 1 0 2 0 0 3 3 2 1
## [556] 1 1 2 1 1 0 0 0 2 1 0 0 2 2 2 0 2 0 1 0 1 0 0 0 1 1 1 2 1 1 0 0 0 2 0 0 2
## [593] 0 1 0 1 0 0 0 0 0 2 1 1 0 1 2 0 1 0 1 1 2 1 1 0 1 1 1 1 0 2 2 0 3 0 1 0 1
## [630] 1 2 0 2 0 3 2 1 1 2 1 1 2 2 1 0 3 0 2 0 2 0 0 3 1 0 0 0 1 3 1 1 0 2 1 3 2
## [667] 0 1 0 4 0 3 0 3 1 1 0 3 1 2 3 1 0 1 0 0 0 2 0 0 1 1 2 0 1 2 2 1 1 0 0 1 1
## [704] 1 1 1 3 0 0 2 1 0 0 1 1 2 1 2 3 0 0 0 0 1 0 0 0 2 2 1 1 0 2 1 2 1 0 0 4 2
## [741] 1 1 1 1 0 0 0 2 1 0 1 1 1 2 0 2 0 1 0 1 0 0 0 1 0 2 1 2 0 1 0 1 1 1 1 3 0
## [778] 0 2 0 0 1 1 0 1 0 0 2 2 0 1 1 1 1 2 0 2 3 0 2 1 1 0 0 2 1 0 2 0 2 0 3 0 0
## [815] 1 0 0 1 0 0 2 1 2 1 1 0 1 0 2 1 1 1 1 1 1 0 1 0 1 1 2 1 0 0 3 2 1 1 1 2 3
## [852] 0 1 1 0 1 1 1 2 1 1 3 1 1 0 0 0 1 0 0 0 0 0 2 0 1 1 1 3 2 0 0 2 0 1 1 2 1
## [889] 1 0 0 0 0 0 1 1 0 2 2 0 3 4 5 0 1 3 0 1 1 0 0 1 2 0 0 1 0 1 1 1 1 4 1 1 0
## [926] 1 1 0 2 1 2 1 2 1 2 2 3 3 0 1 1 0 1 1 2 0 1 1 0 2 0 0 0 0 2 1 0 1 2 3 2 0
## [963] 1 2 2 0 1 0 1 3 0 0 0 1 1 1 1 1 2 3 1 1 2 0 1 0 2 2 1 1 0 1 1 2 1 1 1 3 0
## [1000] 0
hist(gn)
mean(gn)
## [1] 0.992
va<-var(gn)
va
## [1] 0.9628989
Los valores dados si tienen unos valores muy similares a los valor teorico