Introducción a la Probabilidad
Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. -Wasserman
- Teminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
- Interpretación frecuentista de la probabilidad.
- Probabilidad condicional y su relación con la independencia.
Espacio de resultados y eventos
El Espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio. E.g. Si lanzamos una moneda dos veces entonces: \[ \Omega = \{AA, AS, SA,SS\} \]
Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas. E.g. Que el primer lanzamiento resulte águila \[ A= \{AA, AS\} \] ## Eventos Equiprobables La probabilidad se puede ver como una extension de la idea de proporción, o cociente de una parte con respecto a todo.
E.g. En la carrera de ing. química hay 300 hombres y 700 mujeres, la proporcion de hombres es: \[ \frac{300}{300+700}{=0.3}\ \] Eventos Equiprobables: Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados: \[ P(A)=\frac{\#(A)}{\#\Omega)}\] Por lo que solo hace falta contar.
E.g. Combinaciones Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres, si la eleccion es aleatoria, ¿Cuál es la probabilidad de que el comité esté conformado por 3 hombres y 2 mujeres ?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay\(\dbinom{6}{3} \dbinom{9}{2}\) Posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}}\] Y la función para calcular las combinaciones es choose(n, r)
choose(6, 3) * choose(9, 2) / choose(15, 5)## [1] 0.2397602
Interpretación frecuentista de la probabilidad
Una frecuencia realtiva es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A", "S"), 10, replace = TRUE)
lanzamientos_10## [1] "A" "A" "A" "S" "S" "A" "A" "S" "S" "A"
Podemos calcular la secuencia de frecuencias relativas de águila:
cumsum(lanzamientos_10 == "A")## [1] 1 2 3 3 3 4 5 5 5 6
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)## [1] 1.00 1.00 1.00 0.75 0.60 0.67 0.71 0.62 0.56 0.60
Distribuciones de probabilidad
Funciones en R En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias, las palabras clave para las distribuciones más importantes son: * Distribución Alias * Distribución binomial binom * Distribución de Poisson pois * Distribución normal norm * Distribución exponencial exp * Distribución t de student t * Distribución Chi2 Chisq * Distribución F f
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
Distribución Exponencial
curve(dexp(x), from=0, to=10)#Representa la densidad de una exponencial de media 1 entre 0 y 10Distribución binomial
x <- rbinom(20, 1, 0.5)
x## [1] 0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 0 1
#Genera 20 observaciones con distribución B(1, 0.5)Contanto Éxitos VS Fracasos
table(x)## x
## 0 1
## 7 13
E.g. Distribución normal Si \(X\) es una variable aleatoria con distribución normal de media 3. y su desviación estandar es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula:
pnorm(3.5, mean = 3, sd = 0.5)## [1] 0.8413447
La probabilidad obtenida de que \(X\) sea menor a 3.5 es de 84.1%
- Para calcular el cuantil 0.7 de una v.a normal estándar Z, es decir, un valor X tal que :
qnorm(0.7)## [1] 0.5244005
- Para calcular el mismo cuantil pero para una variable aleatoria normal de media 0 y una SD de 0.5:
qnorm(0.7, sd=0.5)## [1] 0.2622003
El valor \(z_\alpha\) de que aparece en muchas de las fórmulas para intervalos y contraste se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)## [1] 1.959964
- Para generar una muestra de tamaño 100 de una población normal de media 10 y SD de 1:
x <- rnorm(100, mean = 10, sd=1)
x## [1] 11.819686 9.013313 10.140210 9.382425 10.336461 10.398457 9.799957
## [8] 8.375414 9.594967 11.540438 11.107723 9.771478 10.032432 8.345792
## [15] 9.361655 10.372686 10.717531 9.616825 9.901386 11.749588 11.043922
## [22] 9.955834 9.287002 10.085909 11.220271 9.553499 10.384678 11.413636
## [29] 10.798694 9.424748 12.003253 10.347964 11.185354 9.643406 10.318744
## [36] 8.520902 10.713065 8.508882 9.486892 8.694669 8.898565 8.588079
## [43] 10.024500 10.249557 10.048287 10.546735 9.691183 10.037752 9.520841
## [50] 9.367066 8.620851 10.630241 11.008226 9.114807 11.616102 9.729256
## [57] 10.036110 10.943748 8.835356 8.346262 11.428615 9.301345 12.474197
## [64] 9.207741 10.494798 10.089098 8.216330 8.669322 10.386315 9.593867
## [71] 8.797948 10.696446 9.987188 10.426776 9.287981 9.683749 8.985968
## [78] 9.205521 10.777336 8.299774 8.991642 11.018309 11.396681 9.180371
## [85] 11.438569 9.939891 8.223907 9.264432 10.623988 9.220723 9.884536
## [92] 11.004758 9.803531 11.165915 9.179095 11.687654 9.818068 12.494142
## [99] 11.185226 10.363152
- Para estimar el promedio de X
mean(x)## [1] 10.01718
- Histograma de Frecuencias
hist(x)- Grafica de cajas y bigotes
boxplot(x)- Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sean 1) junto con la densidad de la población
hist(x, freq=FALSE)
curve(dnorm(x, mean = 10, sd=1), from = 7, to =13, add=TRUE)#Histograma y curva representativa de la densidad de los datos. Conclusión
En base a lo realizado se puede tener conciencia de que todos los codigos y herramientas utilizadas nos permiten realizar muchas representaciones e identifiación de datos a partir de R, ayudandonos a realizar un trabajo fundamentado en la probabilidad.