Introducción a la probabilidad
La Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. - Wasserman.
Conceptos fundamentales de probabilidad.
Terminologia de probabilidad. Espacio de resutlados, eventos, funciones de probabilidad.
Interpretacion frecuentista de la probabilidad.
Probabilidad condicional y su relacion con independencia.
La regla de Bayes.
Espacio de resultados y eventos
El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.
Ejemplo: Si lanzamos una moneda 2 veces, entonces:
\[ ER = \{AA, SS, AS, SA\} \]
Eventos equiprobables
La probabilidad se puede ver como una proporción de una parte con respecto a un todo.
Si en Ingeniería Química tenemos 1000 estudiantes, de los cuales
- 300 son hombres
- 700 son mujeres
Si elegimos un estudiante al azar de Ingeniería Química.
¿Cuál es la probabilidad de que sea hombre?
\[ P = \frac{300}{700+300} = 0.3 \]
La probabilidad entonces es de 0.3
Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad de que un evento ocurra es el numero de eventos favorables dividido entre el numero de eventos posibles.
Esto se concibe de la siguiente forma:
\[ Probabilidad = Eventos favorables / Eventos posibles \] Por lo que solo hace falta contar
Ejemplo: Combinaciones
Un comité de 5 personas será seleccionado de un grupo de
- 6 hombres
- 9 mujeres
Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \[\dbinom{15}{5}\] posibles comités, cada uno tiene la misma probabilidad de ser seleccionado.
Por otra parte hay \[\dbinom{6}{3} \dbinom{9}{2}\] posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}} {\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose (n, r)
choose(6,3) * choose(9,2) / choose(15,5)## [1] 0.2397602
Por lo tanto, existe una probabilidad de 23.97% de que el comité este conformado por 3 hombres y 2 mujeres.
Interpretacion frecuentista de la probabilidad
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
Las probabilidades se entienden como una aproximación matemática de frecuencias relativas cuando la frecuencia total tienda a cero.
Supongamos que lanzamos una moneda 10 veces y obtenemos lo siguiente:
set.seed(123)
lanzamientos_10 <- sample(c("A","S"),10,replace=TRUE)
lanzamientos_10## [1] "A" "A" "A" "S" "A" "S" "S" "S" "A" "A"
- Ahora vamos a calcular la secuencia de frecuencias relativas de Aguila.
cumsum(lanzamientos_10 == "A") #Suma acumulada de Aguila |## [1] 1 2 3 3 4 4 4 4 5 6
- Frecuencia relativa
round(cumsum(lanzamientos_10 == "A") / 1:10,2)## [1] 1.00 1.00 1.00 0.75 0.80 0.67 0.57 0.50 0.56 0.60
Distribuciones de probabilidad
- Distribución exponencial
Calcula la probabilidad cuando la función de que estos eventos sucedan se comporta como una función exponencial.
curve(dexp(x), from = 0, to = 10)#Representa la densidad de una experencial de media 1 entre 0 y 10- Distribución binomial
Representa el conteo de exitos en comparacion con los fracasos cuando los eventos no suceden de forma exponencial.
x <- rbinom(20,1,0.5) #0.5 representa que hay una equiprobabilidad entre tener exito y no tenerlo.
x## [1] 1 0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 0
Nos muestra un vector que representan los exitos y fracasos: 1 representa exito, 0 representa fracaso, con una misma probabilidad.
- Contando exitos vs fracasos
table(x)## x
## 0 1
## 7 13
- Ejemplo: Distribución normal
En una distribución normal, el eje de las x representa el valor y en las y su probabilidad, conforme más nos acerquemos al media la probabilidad será más alta.
La distribución normal sirve para poder determinar con que frecuencia suceden los eventos aleatorias y poder analizarlo desde una perspectiva de la probabilidad frecuentista.
Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación estandar es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)## [1] 0.8413447
- Para calcular el cuantil 0.7 de una variable aleatoria normal estándar Z, es decir, un valor X tal que:
qnorm(0.7)## [1] 0.5244005
- Para calcular el mismo cuantil, pero para una variable aleatoria normal de media 0 y una desviación estándar de 0.5:
qnorm(0.7, sd=0.5)## [1] 0.2622003
El valor de \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Ejemplos:
qnorm(0,975)## [1] -Inf
- Para generar una muestra de tamaño 100 de una población normal con media de 10 y desviación estándar de 1, guardandola en un vector x:
x <- rnorm(100, mean=10, sd=1)
x## [1] 11.786913 10.497850 8.033383 10.701356 9.527209 8.932176 9.782025
## [8] 8.973996 9.271109 9.374961 8.313307 10.837787 10.153373 8.861863
## [15] 11.253815 10.426464 9.704929 10.895126 10.878133 10.821581 10.688640
## [22] 10.553918 9.938088 9.694037 9.619529 9.305293 9.792083 8.734604
## [29] 12.168956 11.207962 8.876891 9.597115 9.533345 10.779965 9.916631
## [36] 10.253319 9.971453 9.957130 11.368602 9.774229 11.516471 8.451247
## [43] 10.584614 10.123854 10.215942 10.379639 9.497677 9.666793 8.981425
## [50] 8.928209 10.303529 10.448210 10.053004 10.922267 12.050085 9.508969
## [57] 7.690831 11.005739 9.290799 9.311991 11.025571 9.715227 8.779282
## [64] 10.181303 9.861109 10.005764 10.385280 9.629340 10.644377 9.779513
## [71] 10.331782 11.096839 10.435181 9.674068 11.148808 10.993504 10.548397
## [78] 10.238732 9.372094 11.360652 9.399740 12.187333 11.532611 9.764300
## [85] 8.973579 9.289593 10.256884 9.753308 9.652457 9.048381 9.954972
## [92] 9.215096 8.332058 9.619773 10.918997 9.424653 10.607964 8.382117
## [99] 9.944438 10.519407
- Para estimar el promedio de x:
mean(x)## [1] 10.01675
- Histograma de frecuencias para el vector x
El muestreo de una población de 100 con media de 10, claramente tiene su media, con algunos valores más desviados a los extremos.
hist(x)- Grafico de caja y bigotes
boxplot(x) * Histograma de la muestra (normalizado)
hist(x, freq=FALSE) # Freq = FALSE, estable que el area del histograma esté normalizada a 1.
curve(dnorm(x, mean=10, sd=1), from = 7, to = 13, add = TRUE)