Introducción a la probabilidad
Probabilidad es el lenguaje matemático para cuantidicar la incertidumbre Wasserman
- Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
- Interpretación frecuentista de la probabilidad.
- Probabilidad condicional y su relación con la independencia.
Espacio de resultados y eventos
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \} \]
Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
- Que el primer lanzamiento resulte águila.
\[ A=\{AA, AS \} \]
Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a todo.
- En la carrera de Ing. qu´´imica hay 300 hombres y 700 mujeres, la proporción de hombres es:
\[ \frac{300}{700+300} = 0.3 \]
Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]
Por lo que solo falta contar.
- Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres, Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
y la función para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15, 5)## [1] 0.2397602
Interpretación frecuentista de la probabilidad
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE)
lanzamientos_10## [1] "A" "S" "S" "S" "S" "S" "S" "S" "S" "S"
Podemos calcular la secuencia de frecuencias relaticas de águila:
cumsum(lanzamientos_10 == "A")## [1] 1 1 1 1 1 1 1 1 1 1
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)## [1] 1.00 0.50 0.33 0.25 0.20 0.17 0.14 0.12 0.11 0.10
Distribuciones de probabilidad
Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias, las palabras clave para las distribuciones más importantes son:
- Distribución Alias
- Distribución binomial binom
- Distribución de Poissono pois
- Distribución normal norm
- Distribución exponencial exp
- Distribución t de student t
- Distribución χ2 chisq
- Distribución F f
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Solo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos random según una distribución específica} & \text{---}\\ \hline \end{array} \]
Distribución esponencial
curve(dexp(x), from=0, to=10)x <- rbinom (20,1,0.5)
x## [1] 0 1 0 0 0 1 1 1 0 0 1 0 1 1 0 0 0 1 0 0
Contando éxitos vs fracasos
table(x)## x
## 0 1
## 12 8
e. g. Distribución normal
Si \[x\] es una variable aleatoria, con distribución normal de media 3, y su SD es de 0.5, la probabilidad de que x sea menor que 3.5 se calcula de esta forma:
pnorm(3.5, mean=3, sd=0.5)## [1] 0.8413447
*Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor x tal que:
qnorm(0.7)## [1] 0.5244005
*Para calcular el mismo cuantil pero para una v.a. normal estándar de media 0 y una sd de 0.5:
qnorm(0.7, sd=0.5)## [1] 0.2622003
El valor de (zα) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Por ejemplo:
qnorm(0.975)## [1] 1.959964
*Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1)
x## [1] 9.878903 11.448051 10.772037 9.925626 10.373045 10.000604 11.326640
## [8] 9.461613 9.747005 10.807933 9.812768 10.610980 10.820443 10.415780
## [15] 11.096327 10.706279 10.946315 11.533825 11.203205 10.834273 9.013465
## [22] 9.828759 9.889110 9.237235 10.230834 7.679260 8.870145 9.676555
## [29] 9.197341 9.683451 11.229311 9.704904 9.137902 10.351607 9.177492
## [36] 8.950678 9.662653 11.089321 10.284800 10.182525 11.212127 9.229896
## [43] 11.272380 10.059483 12.099833 9.632623 10.473252 11.222095 9.158188
## [50] 9.679502 10.388172 10.758372 8.469575 9.135524 10.878055 9.707071
## [57] 10.333526 10.296720 9.563083 10.294259 9.330094 9.383117 12.779947
## [64] 11.248037 9.031699 11.324002 9.607736 11.541682 10.703852 10.727915
## [71] 10.522022 10.395744 10.165493 9.699739 10.798020 10.490590 11.079780
## [78] 9.663757 11.188334 9.460280 9.405497 9.196107 8.885533 10.039418
## [85] 10.198406 9.421428 8.516410 9.760752 8.979747 8.754058 9.750694
## [92] 10.651611 10.018899 9.800845 9.438731 10.967345 9.729605 10.596099
## [99] 9.991372 8.987738
*Para estimar promedio de x
mean(x)## [1] 10.10895
*Histograma de frecuencias
hist(x)*Gráfico de caja y bigotes
boxplot(x)*Histograma de la muestra (normalizado para que las suma de las áreas de los rectángulos sea 1) junto con la densidad de la población
hist(x, freq=FALSE) #
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)