La probabilidad es el lenguaje matematico para cuantificar la insertidumbre. - Wasserman
Conceptos fundamentales de probabilidad
Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuencista de la probabilidad.
Probabilidad condicional y su relación con la independencia.
Regla de Bayes.
El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.
Ejemplo: si lanzamos una moneda dos veces, entonces
\[\Omega= \{AA, AS, SA, SS \} \]
Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila. \[ A=\{AA, AS\} \]
La probabilidad se puede ver como una extension de la idea de proporción o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Química hay 300 hombres y 700 mujeres
Si elegimos un estudiante de ingeniería quimica. ¿Cual es la probabilidad de que sea hombre? \[ \frac{300}{700}+300=0.3 \]
La probabilidad es entonces de 0.3
Eventos equiprobables: Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
Esto se consibe de la siguiente forma
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]
Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y dos mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la funcion para calcular las combinaciones es choose(n,r)
choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602
Las probabilidades se entienden como una aproximacion matematica de recuencias relativas cuando la frecuencia total tiende a 0.
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones
Supongamos que lanzamos la moneda 10 veces y obtenemos lo siguiente.
l10 <- sample(c("S", "A"),10, replace=TRUE)
l10
## [1] "A" "A" "A" "S" "S" "A" "S" "A" "A" "A"
cumsum(l10== "S")
## [1] 0 0 0 1 2 2 3 3 3 3
round(cumsum(l10== "S")/1:10,2)
## [1] 0.00 0.00 0.00 0.25 0.40 0.33 0.43 0.38 0.33 0.30
Funciones en R En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{observación}\\ \hline p & \text {probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end {array} \] Distribución Exponencial
curve(dexp(x), from = 0, to = 10)
#Representa la densidad de una exponencial de media 1 entre 0 y 10.
Distribución binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 0 1 0 0 1 1 1 1 1 0 1 1 1 0 1 0 0 0 0 0
#Genera 20 observaciones con distribución B(1, 0.5)
Contando éxitos vs Fracasos
table(x)
## x
## 0 1
## 10 10
E.g. Distribución normal Si \(X\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5, se calcula en R de esta forma:
pnorm(3.5, mean = 3, sd = 0.5)
## [1] 0.8413447
#p probabilidad, norm de distribución normal. sd desviación estándar
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd = 0.5)
## [1] 0.2622003
El valor \((z_\alpha \)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <-rnorm(100, mean = 10, sd=1)
x
## [1] 8.520013 9.210694 9.559282 10.833700 10.470557 9.039374 9.581836
## [8] 10.674175 10.016484 9.759193 11.917605 9.172944 10.831371 9.668519
## [15] 8.557579 8.941153 8.974450 10.045886 11.559578 7.808041 10.435110
## [22] 9.580233 8.958446 8.945597 9.636709 9.775724 10.005370 8.852052
## [29] 10.916184 10.819234 9.827541 9.621753 9.686952 9.098775 10.801099
## [36] 9.069855 12.496817 10.484973 10.812683 10.909297 9.542173 9.955413
## [43] 10.118754 8.937114 9.619005 9.147127 9.723283 8.725757 8.428412
## [50] 10.440955 9.307453 9.176218 9.467490 9.499891 8.565845 8.560679
## [57] 10.274514 10.122055 9.355620 11.204288 10.138946 8.389555 9.453145
## [64] 10.654925 9.007204 11.391782 8.856665 10.427834 11.541727 9.201451
## [71] 10.146987 8.669269 8.803699 10.492440 10.459767 9.935751 9.491329
## [78] 8.911060 9.271721 9.817198 10.041607 8.998132 10.429918 9.621411
## [85] 10.643914 9.600585 8.670506 10.431609 10.040297 10.486112 7.449034
## [92] 9.217903 9.034323 9.734569 9.805125 10.961772 10.888958 10.116698
## [99] 10.157401 9.853391
mean(x)
## [1] 9.772946
hist(x)
boxplot(x)
hist(x,freq = FALSE)
#Freq = FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean = 10, sd = 1), from = 7, to = 13, add = TRUE)
#densidad normal