Introducción a la probabilidad
Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. -Wasserman
- Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
- Interpretación frecuentista de la probabilidad.
- Probabilidad condicional y su relación con la independencia.
Espacio de resultados y eventos
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonoces:
\[\Omega= \{AA, AS, SA, SS \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[ A=\{AA, AS\} \] ##Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Química hay 300 Hombres y 700 Mujeres, la proporción de hombres es: \[\frac{300}{700+300}=0.3 \] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si l selección es aleatoria, ¿Cuál es la probabilidad de que el coté este conformado por hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}} {\dbinom{15}{5}} \] y la función para calcular las conbinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose (15, 5)## [1] 0.2397602
##Interpretación frecuentista de la probabilidad
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <-sample(c("A","S"),10,replace=TRUE )
lanzamientos_10## [1] "S" "A" "A" "A" "S" "S" "S" "S" "A" "A"
Podemos calcular las secuencia de frecuencia reltivas de águila:
cumsum(lanzamientos_10 == "A") # suma acumulada de águilas## [1] 0 1 2 3 3 3 3 3 4 5
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)## [1] 0.00 0.50 0.67 0.75 0.60 0.50 0.43 0.38 0.44 0.50
##Distribuciones de propabilidad
**Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alas. Las palabras clave para las distribuciones más importantes son:
- Distribución Alias
- Distribución binomial binom
- Distribución de Poisson pois
- Distribución normal norm
- Distribución exponencial exp
- Distribución t de student t
- Distribución Chi2 chisq
- Distribución F f
$$ ** Distribución Exponencial**
curve(dexp(x),from=0, to=10)#representa la densidad de una exponencial de media 1 entre 0 y 10Distribución binomial
x <-rbinom(20, 1, 0.5)
x## [1] 0 1 0 0 0 0 1 0 0 1 1 1 1 0 0 1 0 0 1 1
#Genera 20 observaciones con distribución B(1,0.5)Contando éxitos vs fracasos
table(x)## x
## 0 1
## 11 9
e.g. Distribución normal
si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)## [1] 0.8413447
- Para calcular el cuantil 0.7 de un v.a. normal estándar z, es decir un valor X tal que
qnorm(0.7)## [1] 0.5244005
- Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)## [1] 0.2622003
El valor \(\( z_\alpha \)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)## [1] 1.959964
- Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1 )
x## [1] 10.495248 10.257780 11.562895 9.503091 9.003000 10.778257 10.418217
## [8] 8.615657 10.691924 10.699225 10.352091 10.291568 9.896303 8.495113
## [15] 9.299139 10.581194 9.248475 10.860868 10.146801 10.940457 10.364281
## [22] 11.454132 10.103551 8.235672 10.331661 10.100351 10.233663 10.967597
## [29] 10.382461 7.940955 8.761977 9.827693 10.918273 9.788321 9.545010
## [36] 9.437236 11.669637 11.226512 9.756061 10.395120 9.456714 11.043391
## [43] 10.623146 7.729304 10.576297 9.481041 9.326512 9.956308 8.937162
## [50] 10.118898 10.669986 8.259646 9.077351 10.659623 11.534959 8.346985
## [57] 9.583700 9.570198 10.568749 10.393947 9.067899 9.888387 10.720803
## [64] 9.838883 9.284146 12.275724 9.669771 9.715485 9.147709 8.917141
## [71] 10.088953 10.262313 11.175162 11.726610 10.900887 8.790984 9.058178
## [78] 8.547953 10.548792 10.885108 11.416472 7.663947 10.367038 9.839982
## [85] 9.886108 10.932411 10.747870 10.558488 9.776018 10.555211 9.431291
## [92] 9.276468 10.221823 11.124500 8.686719 9.776096 8.931133 9.589590
## [99] 10.974453 7.879786
- Para estimar el promedio de x
mean(x)## [1] 9.976377
- Histograma de frecuencias
hist(x)- Gráfico de cajas y bigote
boxplot(x)- Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) #Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)Ejercicios
- Si \(z\) es una variable con distribución normal estándar, calcula \(\mathbb (P)(-2.34 < z <4.78)\).
P= pnorm(4.78, mean=0, sd=1) - (pnorm(-2.34, mean=0, sd=1))
P## [1] 0.9903573
2.Calcula el rango intercuartílico de una población normal estándar.
x=rnorm(20)
x## [1] -1.39800094 1.19904149 -1.08032428 -0.25173317 -0.38058303 1.76804714
## [7] 0.06110409 0.71700564 -1.35816022 0.18094690 -1.14854770 -1.18595627
## [13] 0.90649934 -0.05759748 -0.77927092 0.23288536 0.62178905 2.25809792
## [19] 0.07867747 -0.29854671
IQR(x)## [1] 1.500127
3.Genera una muestra de tamaño 10 de una poblamción normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
#Muestra 1
x <- rnorm(10, mean=5, sd=1)
x## [1] 5.398057 4.234233 4.773539 5.210601 4.346168 3.700717 5.063730 3.017905
## [9] 5.970213 5.601024
mean(x)## [1] 4.731619
#Muestra 2
y <- rnorm(10, mean=5, sd=1)
y## [1] 4.862199 5.760162 4.628951 4.352927 5.399617 5.849025 6.237994 3.325207
## [9] 5.036473 6.148838
mean(y)## [1] 5.160139
#Muestra 3
z <- rnorm(10, mean=5, sd=1)
z## [1] 4.040266 5.646404 4.963995 4.320168 3.465276 3.544742 2.086055 4.283019
## [9] 4.192998 5.787396
mean(z)## [1] 4.233032
- Genera 1000 números con distribuciones de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la medi y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
Pois <- rpois(1000,1)
Pois## [1] 1 1 4 1 1 1 4 2 0 0 0 0 1 0 0 2 0 1 2 0 0 1 1 2 0 3 0 2 3 1 1 1 1 0 2 2 1
## [38] 1 1 1 2 0 0 4 0 2 1 0 1 0 2 1 0 1 1 0 1 1 0 3 2 0 2 1 0 2 0 1 0 1 1 3 3 0
## [75] 1 1 2 1 1 1 0 2 0 1 1 0 0 3 0 1 1 1 3 1 1 1 1 2 1 1 1 0 1 1 1 1 3 1 1 2 1
## [112] 1 0 0 1 2 0 0 1 1 1 1 2 1 2 1 3 0 1 0 0 2 0 0 0 0 1 0 3 1 2 1 2 1 0 0 0 0
## [149] 0 0 1 2 3 0 2 2 1 1 0 0 0 1 1 0 2 0 1 0 0 1 1 0 1 0 2 0 1 0 0 0 1 1 2 1 1
## [186] 1 1 0 2 2 0 1 0 1 2 1 0 0 0 1 1 2 1 1 1 1 2 0 0 2 1 3 2 1 1 1 0 2 0 1 4 0
## [223] 0 0 3 4 1 1 0 0 3 0 3 1 1 0 0 0 2 2 0 1 0 1 0 1 0 0 0 1 1 2 0 2 1 1 0 2 1
## [260] 1 1 2 1 0 0 0 0 1 0 1 0 4 1 0 0 1 1 0 0 1 0 1 1 2 0 2 1 0 0 1 0 2 1 2 2 1
## [297] 0 1 1 0 0 2 1 0 0 0 2 1 2 0 2 1 1 3 1 1 1 0 3 0 1 1 2 0 1 1 0 0 0 1 0 0 1
## [334] 1 3 0 0 2 0 0 2 4 0 0 0 2 2 1 0 2 0 1 0 2 3 5 1 1 0 2 1 0 0 3 1 0 2 2 0 1
## [371] 0 2 1 0 0 1 2 1 2 0 1 2 1 0 0 1 1 1 1 0 0 2 0 0 0 1 3 0 0 1 1 2 3 0 2 1 2
## [408] 0 0 3 2 1 0 1 2 1 0 2 2 0 1 0 0 1 1 3 2 2 2 0 1 2 2 1 2 0 1 0 0 1 0 2 2 1
## [445] 1 1 2 0 2 1 0 2 3 0 1 0 1 0 0 0 2 0 0 0 2 1 3 1 0 0 1 0 0 2 0 0 1 2 0 4 0
## [482] 2 3 2 3 0 0 2 0 0 2 1 2 1 0 0 0 1 1 1 2 2 1 0 0 2 0 2 0 3 2 0 2 0 2 1 1 1
## [519] 3 1 0 2 2 0 1 0 0 2 2 1 2 0 0 2 0 0 0 0 0 4 1 0 0 0 0 1 0 2 0 1 1 0 1 1 0
## [556] 0 1 0 0 3 2 1 1 1 1 0 0 0 1 1 1 1 0 0 1 1 1 0 0 0 2 0 0 1 0 1 0 0 0 4 1 1
## [593] 2 2 2 1 0 0 0 1 0 1 2 0 1 2 1 0 1 0 0 0 0 0 0 0 0 1 0 0 1 2 3 0 2 1 1 0 1
## [630] 1 0 1 0 2 0 0 0 2 1 3 3 0 0 0 1 0 1 0 1 1 0 0 0 1 0 2 1 0 1 1 0 3 0 1 0 1
## [667] 1 0 0 1 2 1 1 0 2 0 0 1 0 0 0 0 1 0 0 1 0 2 1 0 2 1 1 1 1 2 2 2 2 0 2 0 2
## [704] 0 0 0 1 1 2 1 1 0 0 1 0 0 1 3 1 1 1 2 1 0 0 0 2 2 3 1 1 0 0 0 1 2 1 1 0 1
## [741] 0 1 4 2 2 1 1 3 2 1 0 2 1 0 0 1 1 4 0 4 2 1 1 0 1 3 1 2 1 1 2 1 0 1 0 0 0
## [778] 2 0 2 0 2 3 2 0 0 0 1 0 4 1 1 1 1 0 2 0 4 1 2 0 0 0 1 1 1 0 0 2 1 1 1 1 2
## [815] 1 1 0 2 4 1 0 1 4 0 1 2 0 1 2 1 1 2 1 2 1 2 0 1 2 4 0 2 1 0 2 1 0 1 0 2 1
## [852] 1 0 2 1 1 1 1 0 0 2 1 0 3 0 0 1 2 1 0 0 0 1 0 2 2 1 0 0 0 1 0 0 1 1 2 1 1
## [889] 0 0 2 1 1 0 0 4 1 1 1 1 3 1 2 2 2 2 3 2 0 2 0 1 1 0 1 2 0 0 1 1 2 0 0 1 0
## [926] 1 0 0 2 1 3 0 0 0 0 0 1 1 2 1 1 1 0 1 2 0 2 1 1 0 2 0 1 0 1 1 3 0 4 1 1 2
## [963] 0 2 1 4 1 1 0 0 2 1 3 2 2 1 0 1 0 4 2 1 2 1 1 0 0 3 1 3 5 1 0 0 0 0 0 0 0
## [1000] 2
mean(Pois)## [1] 0.979
var(Pois)## [1] 0.9895485
hist(Pois, xlab="Distribución de Poisson", ylab="Frecuencia", main="Histograma de Poisson", col="green")- Calcula con R los siguientes valores: \(t_{3,\alpha}\), \(\chi^2_{3, \alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.01\). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.