Probabilidad es el lenguaje matematico para cuantificar la insertidumbre. Wasserman
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \}\] Un evento es un subconjunto del espacio muestreal, los eventos usualmente se denotan por mayusculas.
e.g. Que el primer lanzamiento resulte águila.
\[A=\{AA, AS\} \] ## Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Quimica hay 300 hombres y 700 mujeres, la propoción de hombres es:
\[ \frac{300}{700+300}= 0.3\] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el numero de resultados en A dividido entre el número total de posibles resultados:
\[P(A)= \frac{\#(A)}{\#(\Omega)} \] Por lo que falta contar
e.g. Combinaciones
Un comite de 5 personas sera seleccionado de un grupo de 6 hombes y 9 mujeres. Si la selección es aleatoria, ¿Cuál es la probabilidad de que el comité este conformada por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comites, cada uno tiene la misma posibilidades de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comites que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}}\] y la función para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciónes.
lanzamiento_10 <- sample(c("A","S"),10, replace = TRUE )
lanzamiento_10
## [1] "S" "S" "A" "S" "S" "A" "S" "A" "S" "A"
Podemos calcular las secuencias de frecuencia relativas de águila:
cumsum(lanzamiento_10 == "A") # suma acumulada de águilas
## [1] 0 0 1 1 1 2 2 3 3 4
Dividiendo
round(cumsum(lanzamiento_10 == "A") / 1:10, 2)
## [1] 0.00 0.00 0.33 0.25 0.20 0.33 0.29 0.38 0.33 0.40
**Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave alias. Las palabras clave para las distribuciones más importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial
curve(dexp(x), from=0, to=0)
#representa la densidad de una exponencial de media 1 entre 0 y 10
Distribución binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0
# Genera 20 observaciones con distribución B(1, 0.5)
Contando exitos vs fracasos
table(x)
## x
## 0 1
## 16 4
e.g. Distribución normal
Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean= 10, sd=1 )
x
## [1] 9.831736 11.087531 9.275978 10.951930 11.377253 11.195651 9.953722
## [8] 11.518392 11.006049 10.712914 9.844943 9.671132 11.434459 9.345198
## [15] 8.511373 10.121858 9.539513 8.764681 8.973353 9.776030 10.848852
## [22] 9.315965 11.130845 9.596704 10.058305 8.906502 9.417132 9.779664
## [29] 10.138076 9.024401 11.851126 9.205775 8.543820 9.934331 9.643587
## [36] 9.786393 9.302483 10.902843 10.403056 12.831643 10.944640 10.008937
## [43] 9.729065 9.207410 9.376648 9.126728 8.997075 10.331255 9.249621
## [50] 9.309020 8.574413 9.411902 9.802085 9.509254 9.644463 11.612543
## [57] 10.414700 9.790864 8.919027 11.168459 9.728770 8.213670 10.745184
## [64] 11.021175 9.864708 9.894833 11.135982 10.986530 9.782964 9.393385
## [71] 9.176761 6.852161 9.998626 9.605474 9.559207 8.781904 11.610240
## [78] 11.019260 10.765939 9.392444 10.363999 10.895326 9.800190 8.531222
## [85] 11.532551 10.872355 9.565911 10.316582 9.670978 9.962471 9.984870
## [92] 9.194693 10.664260 9.342044 9.313867 11.619517 10.219925 9.845676
## [99] 10.578109 12.168557
mean(x)
## [1] 10.00616
hist(x)
boxplot(x)
hist(x, freq = FALSE) #freq= FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from= 7, to= 13, add=TRUE)
pnorm(4.78)
## [1] 0.9999991