Introducción a la probabilidad
Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. - Wasserman
- Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad.
- Interpretacion frecuentista de la probabilidad.
- Probabilidad condicional y su relación con la independencia
Espacio de resultados y eventos
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[ \Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[ A=\{AA, AS\}\]
Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Quimica hay 300 hombres y 700 mujeres, la proporción de hombres es:
\[ \frac{300}{700+300} = 0.3 \]
Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)}\]
Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿Cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15,5)## [1] 0.2397602
Interpretación frecuentista de la probabilidad
lanzamientos_10 <- sample(c("A","S"), 10, replace = TRUE)
lanzamientos_10## [1] "S" "A" "S" "A" "A" "S" "S" "S" "A" "A"
Podemos calcular la secuencia de frecuencias relativas de águila:
cumsum(lanzamientos_10 == "A") # Suma acumulada de águilas## [1] 0 1 1 2 3 3 3 3 4 5
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)## [1] 0.00 0.50 0.33 0.50 0.60 0.50 0.43 0.38 0.44 0.50
Distribuciones de probabilidad
**Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:
- Distribución Alias
- Distribución binomial binom
- Distribución de Poisson pois
- Distribución normal norm
- Distribución exponencial exp
- Distribución t de Student t
- Distribución Chi2 chisq
- Distribución F
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{Random} & \text{Genera datos aleatorios según una distribución especifica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial
curve(dexp(x), from = 0, to = 10)#Representa la densidad de una exponencial de media 1 entre 0 y 10Distribución Binomial
1 representa exito, 0 representa fracaso.
x <- rbinom(20, 1, 0.5)
x## [1] 1 1 0 0 0 1 1 0 0 1 1 1 0 1 1 0 0 1 1 1
#Genera 20 observaciones con distribución B(1, 0.5)Contando éxitos vs fracasos
table(x)## x
## 0 1
## 8 12
e.g. Distribución normal
Si \(x\) es una variable aleatoria, con distribución normal de media 3 y su desviación tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)## [1] 0.8413447
- Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que
qnorm(0.7)## [1] 0.5244005
- Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)## [1] 1.959964
- Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica l (y guardarla en un vector x):
x <- rnorm(100, mean = 10, sd = 1)
x## [1] 11.169538 8.753264 9.405135 10.283719 7.287698 10.157602 8.748622
## [8] 9.224794 9.270618 9.925875 9.175082 9.895839 10.102421 8.905022
## [15] 9.768012 9.064914 10.999146 10.909552 10.705331 10.302539 10.372045
## [22] 10.561727 9.629057 8.595817 11.063461 9.739686 10.089119 9.797061
## [29] 10.987278 9.753516 11.555428 11.684114 11.767440 7.826183 9.259231
## [36] 8.949495 9.932139 9.693207 11.085038 9.408288 10.344566 9.851146
## [43] 10.371680 9.669226 11.815979 10.050240 11.614272 9.548897 10.135826
## [50] 11.262208 10.985674 9.396918 10.656412 10.275226 9.851561 9.643136
## [57] 9.980357 11.342800 11.458519 10.946244 10.391798 11.111485 10.277860
## [64] 10.063355 11.492996 10.489836 9.431169 9.480033 10.249654 9.852141
## [71] 10.936593 8.345797 8.944294 11.746623 10.979525 11.053808 10.182414
## [78] 12.167522 10.027028 7.823250 8.604446 11.127121 8.775150 10.988579
## [85] 8.569897 10.540335 9.472111 10.154163 9.384286 10.766161 11.099763
## [92] 8.702527 9.806971 10.824816 10.028367 11.286066 9.717737 10.714561
## [99] 9.410590 11.019689
- Para estimar el promedio de x
mean(x)## [1] 10.11045
- Histograma de frecuencias
hist(x)- Grafico de cajas y bigote
boxplot(x)- Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq = FALSE) # Freq = FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean= 10, sd= 1), from=7, to=13, add=TRUE)Ejercicios
- Si \(Z\) es una variable con distribución normal estándar, calcula \(P(−2.34<Z<4.78).\)
p = pnorm(4.78, mean = 0, sd = 1) - (pnorm(-2.34, mean = 0, sd = 1))
p## [1] 0.9903573
- Calcula el rango intercuartílico de una población normal estándar.
l <- c(1,2,5,5,6,7,8,9,9,9)
summary(l)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 5.00 6.50 6.10 8.75 9.00
IQR(l)## [1] 3.75
- Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
l <- rnorm(10, mean = 7, sd = 4)
l## [1] 8.6859117 8.2076070 6.8505477 -0.8338919 2.9110262 15.4969323
## [7] 11.3926429 1.0131790 5.1317444 9.0340831
mean(l)## [1] 6.788978
l <- rnorm(10, mean = 7, sd = 4)
l## [1] 3.257028 1.272925 -2.365710 9.052169 8.675661 7.268789 7.842271
## [8] 9.673272 8.995503 3.358544
mean(l)## [1] 5.703045
l <- rnorm(10, mean = 7, sd = 4)
l## [1] 7.872642 6.836645 8.494783 8.211806 1.149942 11.829531 12.670755
## [8] 10.693156 10.791474 1.494329
mean(l)## [1] 8.004506
Nuestros datos son aleatorios es por eso que el resultado varia dependiendo totalmente de la suerte.
- Genera 1000 números con distribución de Poisson de parámetro λ=1.
poiss <- rpois(1000,1)
poiss## [1] 1 3 1 2 2 0 0 0 1 1 1 2 0 1 3 3 0 1 1 0 1 0 3 1 0 4 2 1 1 2 1 0 1 0 2 2 0
## [38] 2 4 1 0 2 3 2 0 1 1 2 0 1 2 1 0 2 1 0 0 0 4 0 0 0 1 3 2 1 2 2 0 2 1 0 1 0
## [75] 1 0 0 3 0 2 0 0 0 0 0 0 0 0 1 3 2 3 0 0 2 1 2 1 2 1 0 0 1 1 2 2 0 0 2 0 2
## [112] 0 1 2 2 1 0 0 1 0 2 0 3 0 1 3 2 1 0 1 1 0 0 2 0 0 3 4 0 2 0 0 0 1 0 1 0 2
## [149] 1 0 2 1 1 1 2 2 0 0 1 0 1 2 0 2 0 2 0 1 1 2 0 0 1 0 0 2 0 1 0 3 2 0 1 1 2
## [186] 3 1 2 1 0 1 3 3 0 0 1 0 0 0 3 1 0 1 1 0 1 4 4 1 0 0 1 0 1 0 1 2 0 1 3 1 0
## [223] 2 3 0 0 0 0 0 3 0 1 3 2 1 1 2 1 0 2 2 0 0 0 2 1 0 2 0 2 0 2 0 1 0 3 2 0 0
## [260] 2 1 1 0 4 0 1 5 3 0 1 1 2 0 2 2 3 2 2 2 0 1 1 0 0 1 0 0 0 0 1 1 2 2 1 2 0
## [297] 0 2 1 4 0 0 0 2 0 0 0 1 0 1 0 0 0 0 1 1 1 1 0 1 0 0 0 1 1 1 1 1 2 0 2 1 0
## [334] 1 1 2 2 1 3 1 2 0 1 1 2 3 0 2 2 0 2 3 0 0 2 1 0 0 0 1 2 0 2 2 0 0 1 1 0 1
## [371] 2 1 3 2 1 4 0 3 0 1 2 1 1 0 0 0 0 1 2 3 1 3 1 2 1 1 3 0 3 1 1 0 3 1 1 1 0
## [408] 2 2 1 1 0 1 1 0 1 2 1 0 0 0 3 0 1 0 1 1 2 2 1 1 0 0 0 2 2 2 0 2 2 0 0 2 4
## [445] 0 1 3 0 1 2 2 1 3 1 2 1 2 1 0 2 1 0 1 1 0 1 0 0 1 0 0 0 2 1 0 1 0 0 4 0 2
## [482] 0 0 1 4 1 1 1 1 1 2 1 1 0 1 1 0 0 2 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 2 1 1 0
## [519] 1 0 2 2 1 4 4 0 1 1 0 2 2 0 0 0 3 1 1 1 2 0 4 0 1 0 0 0 4 1 0 0 1 2 0 0 0
## [556] 0 1 2 0 0 1 1 0 1 0 0 1 2 0 3 1 2 2 0 3 0 0 0 0 2 1 0 3 2 0 0 0 1 1 1 1 0
## [593] 0 0 1 0 0 3 0 2 1 1 0 1 1 0 0 1 0 2 1 2 2 0 2 0 1 0 0 0 2 0 0 1 0 0 2 1 3
## [630] 1 0 1 2 1 0 1 0 1 0 2 1 0 1 3 1 1 0 3 1 1 1 0 2 0 0 3 1 1 2 2 1 4 1 0 2 1
## [667] 0 1 0 2 2 1 0 2 2 1 2 0 1 1 1 2 2 1 2 2 0 0 1 1 0 3 0 0 1 1 2 1 2 0 2 3 2
## [704] 0 1 0 1 0 2 2 2 0 1 0 3 0 2 2 0 0 2 0 2 0 1 1 2 1 0 0 0 1 0 0 0 0 0 1 2 1
## [741] 1 2 1 1 0 1 0 0 0 0 0 0 1 1 1 2 4 1 1 2 1 1 1 0 2 2 1 1 0 1 0 1 1 0 0 2 4
## [778] 0 3 2 3 0 2 0 1 0 0 0 4 0 0 1 1 0 0 1 1 1 1 0 1 2 2 3 1 1 0 0 2 0 0 2 1 3
## [815] 1 0 0 1 1 1 0 1 1 2 1 2 1 0 0 3 0 3 0 0 0 0 0 1 0 0 1 1 1 1 0 1 1 0 2 1 2
## [852] 3 1 1 1 1 0 1 1 1 1 0 0 1 1 0 0 0 2 1 1 0 1 0 2 1 0 0 0 1 0 2 0 1 0 0 2 2
## [889] 1 3 1 0 0 0 1 3 0 0 0 0 0 2 1 2 3 2 2 0 0 2 1 4 0 0 0 0 0 2 1 0 1 1 2 0 0
## [926] 0 1 1 2 1 1 1 1 2 0 1 0 0 2 1 2 2 2 0 1 1 0 0 1 0 1 2 2 1 0 1 2 0 2 0 0 3
## [963] 1 1 0 3 2 1 0 3 1 3 2 2 0 1 0 3 2 0 2 1 0 2 1 1 0 1 1 0 1 3 0 0 1 1 0 1 1
## [1000] 0
mean(poiss)## [1] 1.016
var(poiss)## [1] 1.040785
hist(poiss, xlab = "Distribución de Poisson", ylab= "Frecuencia", main = "Histograma de Poisson", col="light blue", border = (color = "black"))Como se puede apreciar no se parecen a los datos teoricos.