Introduccion a la probabilidad
Probabilidad Es el lenguaje matematico para cuantificar la incertidumbre. Wasserman
1.Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad etc.
2.Interpretacion frecuentista de la probabilidad.
3.Probabilidad condicional y su relacion con la independencia.
Espacio de resultados y eventos
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[ \begin{equation}\label{eq:Omega} \Omega = \{AA, AS, SA, SS \} \end{equation} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayusculas.
e.g. Que el primer lanzamiento resulte aguila.
\[ \begin{equation}\label{eq:A} A=\{AA,AS\} \end{equation} \]
Eventos equiprobables
La probabilidad se puede ver como una extension de la idea de proporcion, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Quimica hay 300 Hombres y 700 Mujeres, la proporcion de hombre es:
\[ \begin{equation}\label{eq:frac} \frac{300} {700+300} = 0.3 \end{equation} \] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el numero de resultados en A dividido entre el numero total de posibles resultados:
\[ \begin{equation}\label{eq:P} P(A)=\frac{\#(A)}{\#(\Omega)} \end{equation} \] Por lo que solo hace falta contar. e.g. Combinaciones
Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. Si la seleccion es aleatoria, ¿Cual es la probabilidad de que el comite este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comite, cada uno tiene la misma posibilidad de ser selccionado.
Po otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comite que oncluye 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] Y la funcion para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15, 5)## [1] 0.2397602
Interpretacion frecuentista de la probabilidad
Una frecuencia relativa es una proporcion que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesion de observaciones.
lanzamientos_10 <- sample(c("A", "S"),10, replace = TRUE )
lanzamientos_10## [1] "A" "A" "S" "S" "S" "S" "S" "S" "A" "S"
- Podemos calcular las secuencias de frecuencias relativas de aguila:
cumsum(lanzamientos_10 == "A") # Suma acumulada de aguila## [1] 1 2 2 2 2 2 2 2 3 3
- Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)## [1] 1.00 1.00 0.67 0.50 0.40 0.33 0.29 0.25 0.33 0.30
Distribuciones de probabilidad
Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:
- Distribución Alias
- Distribución binomial binom
- Distribución de Poisson pois
- Distribución normal norm
- Distribución exponencial exp
- Distribución t de Student t
- Distribución Chi2 chisq
- Distribución F f
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ q & \text{quantile} & \text{Calcula probalilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ d & \text{density} & \text{Calcula las probabilidades puntuales} & \text{Sólo uso gr'afico en el caso continuo} \\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
Distribución Exponencial
curve(dexp(x), from=0, to=10)- Representa la densidad de una exponencial de media 1 entre 0 y 10
Distribución binomial
x <- rbinom(20, 1, 0.5)
x## [1] 0 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1
- Genera 20 observaciones con distribución B(1,0.5)
Contando éxitos vs fracasos
table(x)## x
## 0 1
## 9 11
e.g. Distribucion normal
Si \(X\) es una variable aleatoria, con distribucion normal de media 3 y du desviacion tipica es de 0.5, la probabilidad de que x sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)## [1] 0.8413447
- Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que
qnorm(0.7)## [1] 0.5244005
- El valor zα que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)## [1] 1.959964
- Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1 )
x## [1] 11.661887 11.313654 10.600092 12.142083 9.528784 9.157353 10.380920
## [8] 8.921689 11.038977 10.891598 7.054430 8.755391 12.183975 11.462704
## [15] 9.773801 9.613233 9.962188 7.918718 11.510480 8.386874 11.418816
## [22] 9.962392 9.692700 11.849248 10.864795 10.901169 9.877803 9.887594
## [29] 8.611325 12.036271 12.149100 9.725611 10.286463 11.697307 10.993114
## [36] 10.164162 8.477698 9.629540 9.892864 9.753914 9.326054 11.994842
## [43] 10.906718 12.184061 9.044137 10.770084 7.909993 8.907180 8.636160
## [50] 9.737123 9.167818 10.687212 9.476570 9.332906 9.838005 10.227267
## [57] 9.346814 9.195150 10.075923 9.665235 10.608816 8.031853 10.188567
## [64] 10.844494 11.863168 10.247668 10.658865 9.277171 10.383271 10.619638
## [71] 11.482365 8.111699 10.146816 9.027752 9.394696 9.313237 7.883836
## [78] 9.011540 10.512609 10.552217 10.684465 10.570710 9.161701 10.028080
## [85] 9.132753 9.701151 9.554435 9.849521 9.864834 10.877602 10.148104
## [92] 12.323116 9.581477 8.667432 9.197527 7.687588 10.285329 10.178879
## [99] 8.718001 9.909006
- Para estimar el promedio de x
mean(x)## [1] 10.00842
- Histograma de frecuencias
hist(x)- Gráfico de cajas y bigote
boxplot(x)- Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)