“Probabilidad es el lenguaje matemático para cuantificar incertidumbre.” -Wasserman
Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuentista de probabilidad.
Probabilidad condicional y su relación con independencia.
La regla de Bayes.
El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.
Ejemplo: Si lanzamos una moneda dos veces entonces:
\[ \Omega = \{AA, AS, SA, SS \} \] Escribe el espacio muestral de los siguientes experimentos aleatorios:
Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.
El evento: que el primer lanzamiento resulte águila es
\[ A = \{AA, AS\} \]>
Eventos Equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo. Si en la carrera de química tenemos:
la proporción de hombres es:
\[ \frac{300}{700+300}=0.3\ \]
Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.
En el ejemplo hay un supuesto implícito en elegir al azar (o aleatoria mente), en este caso estamos suponiendo que todos los estudiantes tienen la misma probabilidad de ser elegidos, que nos lleva al siguiente concepto:
Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]
Por lo que solo hace falta contar.
e.g. La probabilidad de obtener AA si lanzamos una moneda 2 veces es de 1/4 que también es 0.25 ó 25%, y la probabilidad del evento que el primer lanzamiento resulte águila es de 2/4 = 0.5 ó 50%
Ejemplo: combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
la función para calcular las combinaciones en R (random) es choose(n, r)
choose (6, 3) * choose(9, 2) / choose (15, 5)
Las probabilidades se entienden como una aproximación matemática de frecuencias relativas cuando la frecuencia total tiende a infinito.
supongamos que lanzamos una moneda 10 veces y obtenemos:
lanzamientos_10 <- sample(c("A", "S"),10, replace=TRUE)
#para calcular la secuencia de frecuencias relativas de águila
cumsum(lanzamientos_10 == "A") #suma acumulada de águilas
## [1] 0 1 1 2 3 3 3 4 4 4
round(cumsum(lanzamientos_10 == "A") / 1:10, 2 )
## [1] 0.00 0.50 0.33 0.50 0.60 0.50 0.43 0.50 0.44 0.40
plot(cars)
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
Aquí tenemos la gráfica de los carros:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
v.a. normal estándar \(Z\), es decir, un valor \(x\) tal que \(\mathbb{P}(Z\leq x) = 0.7\)):
DATA606::normalPlot(mean = 0, sd = 1, bounds = c(-0.4, 1.5), tails = FALSE)
##Distribucion de probabilidad
**Funciones en R
En R, cada distribucion de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
Distribucion exponencial
curve(dexp(x), from=0, to=10)
Distribucion binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 0 1 1 1 1 0 1 1 1 1 0 0 1 0 0 0 1 1 1 0
#Genera 20 observaciones con distribución B(1,0.5)
Contando exitos vs fracasos
table(x)
## x
## 0 1
## 8 12
e.g. Distribucion normal
Si \(x\) es una variable aletoria, con distribución normal de media 3, y du desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
*Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que:
qnorm(0.7)
## [1] 0.5244005
*Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
*Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1 )
x
## [1] 9.712081 11.448383 11.051442 11.545992 10.590147 10.846110 9.331089
## [8] 10.304886 8.570122 10.503543 9.301316 10.393736 10.115739 10.603863
## [15] 9.767397 11.451707 9.398473 12.221289 9.116994 9.330728 9.977950
## [22] 8.637821 11.065514 9.956980 8.204519 10.647975 13.058753 10.356916
## [29] 8.966203 9.043259 10.053766 9.486075 9.973093 9.697792 9.943682
## [36] 10.089569 9.665000 10.571229 10.509172 9.024887 9.946256 9.588393
## [43] 9.760608 9.766365 11.879986 10.563646 9.618580 8.871513 10.565664
## [50] 10.146796 9.700708 11.196414 10.222306 10.935699 9.527141 9.856283
## [57] 9.317958 7.867478 9.556276 9.693688 8.482807 10.275622 11.343076
## [64] 10.456381 9.089392 10.079845 11.029213 8.556581 9.755290 10.660158
## [71] 10.347021 11.404476 9.699356 10.628775 10.341024 11.794323 8.410229
## [78] 11.366308 10.474746 10.382585 9.477674 12.939409 8.006954 9.583885
## [85] 11.618012 11.131267 8.860417 9.249577 11.698246 10.131687 10.129399
## [92] 7.729736 9.291042 9.739224 10.453684 9.531544 10.946517 10.116877
## [99] 10.694329 9.228778
*Para estimar el promedio de x
mean(x)
## [1] 10.08252
*Histograma de frecuencias
hist(x)
*Gráfico de cajas y bigote
boxplot(x)
*Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE)
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
Ejercicios
pnorm(4.78,sd = 1) - pnorm(-2.34, sd = 1)
## [1] 0.9903573
Calcula el rango intercuartílico de una población normal estándar.
Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
x <- rnorm(10)
x
## [1] -0.9099260 -0.4537985 0.7550066 0.5632799 1.0006779 -0.7487875
## [7] 0.3035719 -1.4607337 0.3257020 -0.7311502
Media
mean(x)
## [1] -0.1356158
x <- rpois(1000,1)
x
## [1] 3 0 2 2 1 1 0 1 1 1 1 2 1 4 0 1 1 2 0 2 0 1 1 0 1 2 2 0 0 0 1 2 3 1 3 0 0
## [38] 3 0 2 1 0 0 0 1 0 1 1 1 1 2 2 0 2 2 0 0 2 1 1 2 1 1 1 2 1 1 2 1 2 0 1 1 3
## [75] 0 1 1 1 2 0 0 0 3 0 1 1 0 0 3 0 0 1 1 0 1 0 1 3 0 2 2 0 1 2 1 0 2 0 3 1 0
## [112] 0 0 0 2 0 1 1 1 0 1 1 1 0 3 3 2 1 0 0 0 2 2 1 1 1 0 0 0 1 0 0 2 1 1 1 1 1
## [149] 2 2 1 0 1 1 0 3 0 1 0 0 0 2 0 0 0 1 0 0 2 2 1 2 0 2 0 1 2 3 0 2 0 0 3 0 0
## [186] 0 1 1 0 0 1 2 0 0 3 1 1 1 1 0 0 1 1 1 1 1 0 0 1 0 1 0 0 3 1 1 1 1 2 1 1 2
## [223] 2 1 2 1 2 0 2 1 2 0 1 1 2 1 2 1 0 0 0 0 0 1 3 0 1 1 3 2 0 0 1 1 0 1 0 2 1
## [260] 2 2 2 0 0 1 1 1 1 0 0 1 1 2 0 1 2 1 0 1 3 3 0 2 0 0 2 1 0 1 0 2 1 2 1 2 1
## [297] 1 1 0 0 0 2 0 0 2 1 0 0 0 0 2 2 2 3 1 0 1 1 0 0 0 0 0 1 1 1 0 1 1 0 2 0 2
## [334] 1 1 2 0 1 2 2 0 1 2 1 0 1 1 0 1 2 0 0 2 2 1 3 0 0 4 1 0 1 1 0 0 3 2 1 1 1
## [371] 1 1 2 0 1 2 0 1 0 1 2 2 1 3 1 1 1 2 1 4 1 0 2 1 1 1 0 0 3 0 3 3 1 3 1 2 2
## [408] 2 1 2 1 1 1 1 1 1 2 0 1 0 3 0 1 0 1 2 0 0 1 0 1 1 2 1 0 2 2 1 1 1 1 2 0 0
## [445] 1 0 1 0 2 1 4 0 1 2 0 1 0 2 1 5 1 1 2 0 1 1 1 1 0 1 2 3 0 0 2 2 1 0 3 1 2
## [482] 0 0 0 0 1 1 1 0 0 1 0 2 1 0 0 0 0 0 0 3 1 1 0 2 2 1 3 3 2 2 1 0 0 2 2 1 0
## [519] 1 2 1 2 2 1 0 0 0 3 1 1 0 1 1 1 0 0 1 0 1 1 2 2 0 1 3 0 0 0 1 0 1 1 1 1 0
## [556] 1 1 1 0 2 0 3 2 0 1 1 0 1 2 1 1 0 1 1 0 3 1 0 0 1 1 0 0 1 2 1 1 2 0 0 1 0
## [593] 1 2 1 3 1 2 0 2 1 1 1 0 0 1 0 2 0 1 4 1 1 1 3 1 0 3 2 0 1 0 1 0 2 3 1 4 1
## [630] 0 0 0 0 3 2 1 1 1 1 0 2 0 1 3 1 0 2 1 1 1 2 2 1 1 2 3 1 1 0 3 0 0 0 1 0 0
## [667] 0 0 0 0 2 1 0 1 1 0 0 0 0 2 2 5 1 1 0 2 0 1 0 3 2 0 0 0 0 1 2 0 2 0 1 1 0
## [704] 3 0 3 2 1 2 0 1 5 1 2 1 1 0 3 0 2 1 0 1 2 3 0 0 1 1 0 2 1 1 1 1 3 0 2 0 0
## [741] 0 2 1 3 0 0 1 0 1 3 2 1 1 1 0 1 0 0 4 1 0 1 1 2 2 0 2 2 1 1 0 1 2 1 2 0 2
## [778] 1 0 0 2 0 1 0 1 3 1 1 0 2 3 0 1 0 1 2 1 1 0 0 0 0 1 4 2 3 0 1 0 2 1 1 0 3
## [815] 2 0 2 0 1 3 0 0 1 2 2 0 1 3 0 1 0 0 0 0 0 1 1 2 1 3 0 2 1 2 1 0 0 0 0 1 0
## [852] 3 1 3 1 1 2 0 1 0 1 1 1 2 2 1 2 1 3 0 1 1 0 0 1 2 0 1 1 1 0 2 2 1 0 0 2 1
## [889] 1 3 2 0 1 2 0 1 0 1 1 2 1 1 0 0 3 1 1 1 0 1 1 0 1 1 1 1 2 1 0 2 0 2 1 2 1
## [926] 0 2 1 2 3 1 2 1 0 0 0 1 1 1 1 1 1 3 0 0 0 1 0 1 1 0 1 1 1 4 2 1 4 2 1 1 1
## [963] 0 1 2 1 0 0 1 0 0 0 0 2 4 0 0 2 2 1 1 0 0 3 0 0 0 1 2 0 2 3 1 1 1 1 2 0 2
## [1000] 0
Media
mean(x)
## [1] 1.035
Varianza
var(x)
## [1] 0.9567317
*0.05
qt(0.05, df = 3)
## [1] -2.353363
*0.01
qt(0.01, df = 3)
## [1] -4.540703
Conclusion
En esta practica se vio todo acerca de la distribucion de la probabilidad, donde se encuentran todos los valores posibles de un ejercicio en si. Se vio como hacer los distintos tipos de distribuciones, como exponencial, binomial, normal, entre otras, asi como su representacion grafica.