Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. Wasserman
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[ A=\{AA, AS\} \] ## Eeventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Química hay 300 Hombres y 700 Mujeres, la proporción de hombres es:
\[ \frac{300}{700+300} =0.3 \] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE )
lanzamientos_10
## [1] "A" "A" "S" "S" "A" "A" "A" "S" "A" "S"
Podemos calcular las secuencia de frecuencias relativas de águila:
cumsum(lanzamientos_10 == "A") # suma acumulada de águilas
## [1] 1 2 2 2 3 4 5 5 6 6
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
## [1] 1.00 1.00 0.67 0.50 0.60 0.67 0.71 0.62 0.67 0.60
##Distribuciones de probabilidad
**Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial
curve(dexp(x), from=0, to=10)
#representa la densidad de una exponencial de media 1 entre 0 y 10
Distribución binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 1 1 1 1 0 0 1 1 0 1 1 1 1 0 0 0 0 1 0 0
#Genera 20 observaciones con distribución B(1,0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 9 11
e.g. Distribución normal
si \(X\) es una variable aletoria, con distribución normal de media 3, y du desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1 )
x
## [1] 9.566156 10.642395 10.649264 8.899338 11.532713 8.717441 8.547940
## [8] 9.236419 10.648322 10.529488 10.553332 8.740481 10.422242 10.923046
## [15] 11.703583 10.061790 9.199557 8.013469 9.059224 11.110613 10.801739
## [22] 10.841458 9.584213 9.687777 9.428005 11.857874 11.936446 10.216636
## [29] 9.746268 10.375417 10.493190 9.895417 10.273967 9.989410 8.758028
## [36] 9.307815 10.346238 9.251278 9.699638 11.922894 9.220912 10.677286
## [43] 11.543255 12.268055 9.584199 9.887332 10.291636 10.479084 9.383245
## [50] 11.147653 11.186022 9.353094 11.276093 10.803190 7.571037 10.426744
## [57] 10.895704 9.161224 10.236885 9.777272 10.231993 9.639424 10.731191
## [64] 8.635090 10.295600 9.767354 8.594228 9.351888 9.743763 10.206457
## [71] 10.868836 10.735506 10.126853 11.135271 9.832761 11.332171 8.499138
## [78] 9.812436 9.135167 7.183229 9.762290 9.280390 9.360213 9.399157
## [85] 9.470825 10.416210 9.607257 9.718182 10.361066 9.181370 9.356864
## [92] 8.979957 9.509105 9.805457 11.033275 10.283791 11.173490 8.564439
## [99] 8.742773 11.828880
mean(x)
## [1] 10.00034
hist(x)
boxplot(x)
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
Ejercicios
Si \(Z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < Z < 4.78)\).
Calcula el rango intercuartílico de una población normal estándar.
Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?