La probabilidad es el lenguaje matematico para cuantificar la insertidumbre - Wasserman
Conceptos fundamentales de probabilidad
1.- Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad
2.- Interpretación frecuencista de la probabilidad
3.- Probabilidad condicional y su relación con la independencia
4.- Regla de Bayes
Es espacio de resultados \(\Omega\) el conjunto de posibles resultados de un experimento aleatorio.
Ejemplo: Si lanzamos una moneda 2 veces, entonces
\[ \Omega=\{AA,SS,AS,SA\} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan con mayusculas.
Ejemplo: Que el primer lanzamiento resulte Aguila.
\[ A=\{AA, AS\} \]
La probabilidad se puede ver como una proporcion de una parte con respecto a un todo
Ejemplo: Si en ingenieria quimica tenemos 1000 estudiantes, de los cuales
Si elegimos un estudiante al azar de ingenieria quimica. Cual es la probabilidad de que sea hombre?
\[ \frac{300}{700+300}=0.3 \] La probabilidad entonces es de 0.3
Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
Ejemplo: Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y dos mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6} {3} \dbinom {9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
y la funcion para calcular las combinaciones es choose(n,r)
choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602
La probabilidades se entienden como una aproximacion matematica de frecuencias relativas cuando la frecuencia total tiende a cero.
Supongamos que lanzamos una moneda 10 veces y obtenemos lo siguiente:
lanzamientos_10<- sample(c("A","S"), 10, replace=TRUE)
lanzamientos_10
## [1] "S" "A" "S" "A" "S" "S" "A" "A" "S" "S"
cumsum(lanzamientos_10=="A")
## [1] 0 1 1 2 2 2 3 4 4 4
round(cumsum(lanzamientos_10=="A")/1:10,2)
## [1] 0.00 0.50 0.33 0.50 0.40 0.33 0.43 0.50 0.44 0.40
En R, cada distribucion de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distibuciones mas importantes son:
Distribucion Exponencial
curve (dexp(x), from = 0, to=10)
#Representa la densidad de una exponencial de media 1 entre 0 y 10
Distribucion binomial
x<- rbinom(20, 1, 0.5)
x
## [1] 1 1 1 0 0 1 1 1 0 0 0 1 1 1 1 0 1 1 0 1
#Genera 20 observaciones con distribucion B(1,0.5)
Contador exitos vs fracasos
table(x)
## x
## 0 1
## 7 13
Ejemplo: Distribucion normal
si \(X\)es una variable aleatoria, con distribucion normal de media 3, y su desviacion tipica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean = 3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas formulas para invervalos y contrastes obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean = 10, sd=1)
x
## [1] 9.901379 12.809169 10.370935 9.713222 9.683116 9.905769 9.702307
## [8] 8.837213 9.936099 10.162675 10.527912 10.791939 10.184209 10.585887
## [15] 10.208781 10.163423 10.466809 8.571471 8.749437 9.591181 10.458437
## [22] 10.273362 10.455807 8.944741 10.559053 10.581938 8.667880 10.829093
## [29] 11.206194 10.573161 8.595611 9.868964 10.200505 11.667915 10.749561
## [36] 9.567314 10.373398 10.550874 9.785215 10.107181 10.651620 10.570713
## [43] 11.077388 10.820945 10.105433 9.185480 8.551259 9.494893 8.483514
## [50] 11.438427 8.796694 8.688844 10.776064 9.487429 7.908953 9.410183
## [57] 11.238508 8.488176 10.399444 8.498230 11.114044 10.779145 9.598832
## [64] 10.700612 11.515932 9.524520 10.918333 10.358405 11.779486 8.524823
## [71] 8.653087 10.543321 10.828385 10.878273 10.262024 11.301922 9.726134
## [78] 10.788853 10.268202 9.725833 9.214461 11.383772 8.052468 11.446036
## [85] 7.710122 10.492269 8.978983 9.367724 10.769368 11.343585 11.276117
## [92] 11.027062 9.143337 9.544795 9.744732 11.227876 10.540637 11.593393
## [99] 9.065900 8.693122
mean(x)
## [1] 10.07357
hist(x)
boxplot(x)
*Histograma de la muestra (normalizado para que la suma de las areas de los rectangulos sea 1) junto con la densidad de la poblacioon
hist(x, freq = FALSE) #Sirve para que el area del histograma sea 1
curve(dnorm(x, mean = 10, sd=1), from = 7, to=13, add = TRUE)
Ejercicios:
Si Z es una variable con distribución normal estándar, calcula P(−2.34<Z<4.78).
Calcula el rango intercuartílico de una población normal estándar.
Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
Genera 1000 números con distribución de Poisson de parámetro λ=1. Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
gn<-rpois(n=1000, 1)
gn
## [1] 0 2 1 0 4 1 0 1 0 1 2 0 0 1 1 1 0 0 1 1 0 0 1 2 0 1 1 1 1 0 1 2 0 0 0 0 1
## [38] 1 1 4 3 2 2 1 2 3 0 4 0 0 0 1 1 1 1 0 0 1 1 2 1 0 0 1 0 2 1 2 1 2 2 3 1 1
## [75] 1 0 2 2 1 1 0 1 1 0 3 2 2 1 1 0 1 2 2 2 0 2 1 0 2 2 1 1 1 1 1 0 0 3 1 3 0
## [112] 0 0 0 1 0 2 1 0 0 0 1 2 1 0 0 1 0 0 2 0 0 0 1 0 2 1 2 1 1 0 0 0 3 1 2 1 0
## [149] 0 2 1 1 2 1 0 3 0 2 2 2 1 0 0 0 1 1 0 1 0 2 0 2 0 0 1 1 1 1 0 1 0 1 2 1 1
## [186] 0 0 1 1 0 0 0 1 0 1 0 1 0 2 1 1 2 0 0 0 0 1 3 1 0 3 3 0 0 0 3 0 0 0 4 2 1
## [223] 0 3 2 0 0 3 4 2 1 0 0 0 1 1 2 1 3 0 1 0 1 3 0 2 1 1 0 0 0 1 0 2 1 2 1 1 1
## [260] 1 0 0 4 1 1 3 0 2 2 0 1 3 1 2 1 1 1 1 2 1 0 1 1 3 0 0 2 0 0 2 3 2 0 3 0 1
## [297] 2 0 0 0 1 2 0 3 2 1 1 5 0 2 1 1 3 1 1 0 2 1 0 0 0 2 1 0 1 1 0 1 2 2 0 2 2
## [334] 1 0 0 0 1 1 0 0 1 2 3 1 0 0 0 1 0 3 0 4 1 1 0 0 1 2 0 1 2 1 0 5 1 0 2 2 1
## [371] 1 0 0 0 1 0 4 0 1 1 0 1 1 1 0 1 0 3 1 0 2 0 2 0 1 0 1 1 1 1 1 1 0 1 0 0 1
## [408] 3 0 2 1 2 0 1 3 0 1 1 1 1 2 1 0 0 1 0 1 1 1 0 1 0 1 0 0 1 2 0 0 0 0 2 0 0
## [445] 1 0 0 1 0 2 1 5 1 2 2 2 1 3 2 2 1 1 1 1 0 2 0 1 0 0 1 2 0 0 0 3 0 0 0 1 1
## [482] 2 0 0 0 1 2 3 0 0 2 1 1 2 1 1 1 1 0 0 1 2 0 0 2 1 2 1 1 0 0 0 3 1 2 2 2 0
## [519] 0 1 2 2 0 1 1 0 0 1 0 0 1 3 1 0 0 2 1 0 0 0 0 2 2 0 0 1 0 1 0 0 0 0 3 1 0
## [556] 2 1 1 2 2 1 2 0 0 0 0 1 1 1 1 1 2 1 1 0 6 0 0 2 1 2 1 0 0 2 1 0 3 0 1 2 1
## [593] 3 2 1 2 1 0 2 0 1 2 2 1 0 3 2 0 1 0 0 0 1 2 1 1 0 0 0 2 1 1 4 1 0 0 1 1 1
## [630] 1 2 0 2 3 1 2 2 1 1 1 0 2 2 0 1 0 0 1 0 1 1 0 0 0 0 2 4 1 2 1 0 0 1 1 0 4
## [667] 0 0 1 0 2 1 3 0 1 0 2 0 1 2 2 0 2 1 0 1 0 0 1 2 1 1 2 0 0 2 0 2 0 1 0 1 0
## [704] 0 2 2 0 2 2 1 0 3 1 0 1 2 0 1 1 2 2 0 0 1 1 4 2 0 0 1 0 1 0 0 2 1 1 1 3 1
## [741] 0 1 0 2 3 4 0 0 1 2 0 2 1 1 1 1 1 0 1 1 1 0 0 0 3 1 2 1 3 3 0 1 0 1 1 0 1
## [778] 2 1 1 3 1 1 3 1 2 0 0 0 2 1 0 0 2 1 2 0 0 1 0 0 1 0 2 1 2 1 0 1 1 3 1 0 1
## [815] 4 1 1 3 1 0 1 1 1 0 1 1 1 1 0 0 1 0 1 2 0 0 1 1 0 1 1 0 0 2 3 3 1 1 1 0 1
## [852] 0 1 0 2 0 3 0 1 0 1 1 2 1 1 0 4 3 1 1 0 1 2 1 0 1 0 0 1 0 0 2 2 1 2 1 0 1
## [889] 2 1 0 1 3 1 2 0 0 2 2 0 0 1 0 1 1 1 1 0 0 2 2 2 2 1 3 2 1 0 1 4 1 2 1 1 0
## [926] 1 0 0 2 1 1 0 0 1 2 1 2 1 1 0 1 2 2 3 1 0 2 1 2 0 1 1 0 1 0 1 1 2 2 1 5 1
## [963] 1 3 5 1 3 0 2 1 2 3 0 0 0 3 1 1 1 0 1 0 1 4 2 0 1 1 1 1 0 1 0 1 4 1 1 6 1
## [1000] 1
hist(gn)
mean(gn)
## [1] 1.032
va<-var(gn)
va
## [1] 1.066042