Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. wasserman
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[A=\{AA,AS\} \] ## Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Química hay 300 hombres y 700 mujeres, la proporción de hombres es:
\[\frac{300}{700+300} =0.3 \] Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posible resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres, si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{15}\) posibles comités, cada uno tiene la misma probabilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto la rpobabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{15}} \] y la función para calcular las ombinaciones es choose (n,r)
choose(6,3) + choose(9,2) / choose(15,5)
## [1] 20.01199
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"),10,replace = TRUE)
lanzamientos_10
## [1] "A" "S" "A" "A" "A" "S" "A" "A" "A" "S"
podemos calcular las secuencias de frecuencia relativas de águila:
cumsum(lanzamientos_10 == "A") # Suma acumulada de águilas
## [1] 1 1 2 3 4 4 5 6 7 7
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
## [1] 1.00 0.50 0.67 0.75 0.80 0.67 0.71 0.75 0.78 0.70
Funciones en R
En R cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones masimportantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{significado} & \text{Uso} & \text{observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas(cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles(percntiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial
curve(dexp(x), from=0, to=10)
#Representa la densidad de una exponencial de media 1 entre 0 y 10
Distribución binomial
x <- rbinom(20,1,0.5)
x
## [1] 0 1 1 1 1 1 0 1 1 0 1 0 1 0 0 1 0 0 0 0
#Genera 20 observaciones con distribución B(1,0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 10 10
e.g. Distribución normal
si \(x\) es una variable aleatoria, con distribución normal de media 3 y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
*Para calcular el cuartil 0.7 de una v.a. normal estandar Z, es decir, un valor x tal que
qnorm(0.7)
## [1] 0.5244005
*Para calcular el mismo cuartil pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(Z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1)
x
## [1] 10.502457 9.844366 10.380400 10.626976 10.982521 7.591157 9.696300
## [8] 10.575901 10.731843 10.992043 10.592910 9.597948 9.408077 9.784272
## [15] 8.861047 9.722403 11.130189 10.238973 11.236655 10.268759 11.255241
## [22] 10.910570 9.544770 9.644597 9.412222 9.073929 10.708406 11.052860
## [29] 10.362648 10.274237 9.859336 10.007669 9.262239 9.336906 10.207820
## [36] 10.262463 9.967699 8.468058 9.398286 11.917557 9.979555 11.632010
## [43] 11.468824 10.487846 8.405522 8.969432 10.226845 9.713967 11.449432
## [50] 9.337905 9.516974 10.072918 9.287876 8.981278 9.596942 8.805722
## [57] 11.335553 10.769081 9.604830 10.783850 9.759056 11.446405 9.629957
## [64] 9.190544 9.916034 12.501916 10.921155 9.479064 10.482181 9.518584
## [71] 10.006556 10.561244 10.649711 10.915521 9.562420 9.998447 8.598449
## [78] 10.288829 10.879321 10.140082 9.336860 9.931101 9.284095 11.108046
## [85] 9.581295 10.193085 10.959402 13.158956 12.571537 11.673317 9.583505
## [92] 10.280135 11.476085 10.650829 9.833339 10.194891 10.325755 10.399375
## [99] 9.706431 8.714848
mean(x)
## [1] 10.17527
hist(x)
* Gráfico de cajas y bigote
boxplot(x)
hist(x, freq=FALSE) #Freque=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
p= pnorm(4.78, mean=0, sd=1) - (pnorm(-2.34, mean=0, sd=1))
p
## [1] 0.9903573
\[ p=0.9903573 \] 2. Calcule el rango intercuartílico de una población normal estandar.
l <- c(1,2,2,2,3,3,6,6,6,6,7,8,8,9)
summary(l)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.250 6.000 4.929 6.750 9.000
\[ IQR= {3rd Qu - 1st Qu} \] \[ IQR= {6.750-2.250}= 4.5 \] 3. Genera una muestra de tamaño 10 de una población normal estándar. ¿ Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
x <- rnorm(10, mean=4, sd=1)
x
## [1] 2.667775 3.725843 4.338922 1.516666 3.322515 5.284477 3.382895 3.209714
## [9] 4.261570 4.440559
x <- rnorm(10, mean=4, sd=1)
x
## [1] 4.808939 4.895922 3.770760 4.651441 1.678881 4.010224 3.982680 3.081405
## [9] 4.249946 5.078928
x <- rnorm(10, mean=4, sd=1)
x
## [1] 5.393439 3.962775 3.210604 3.501125 3.250787 4.587367 5.232433 4.938019
## [9] 3.529520 3.321356
se observa que los números generados son diferentes en las tres corridas, pero esto se debe a que los eventos son aleatorios.
Po <- rpois(1000,1)
Po
## [1] 1 0 1 2 0 0 0 1 1 0 2 1 1 1 0 1 2 1 2 0 2 2 0 0 1 0 1 3 0 2 2 2 1 3 0 1 0
## [38] 1 0 0 0 2 3 2 0 1 0 1 1 2 1 3 1 1 3 0 2 0 0 1 1 1 2 0 0 1 1 0 2 0 1 0 2 1
## [75] 3 0 0 2 1 1 1 1 2 0 0 1 0 1 0 1 0 1 2 0 1 0 1 0 0 0 0 1 1 0 1 0 0 1 3 1 0
## [112] 0 0 0 1 2 1 0 0 2 1 2 0 2 3 0 0 1 2 1 1 0 0 0 0 1 0 0 0 1 1 2 1 3 1 1 2 0
## [149] 0 2 2 2 0 2 2 2 1 1 0 3 2 3 1 0 1 3 0 0 2 0 1 0 0 1 1 1 1 0 1 0 1 1 1 0 0
## [186] 1 2 1 0 1 0 0 3 1 2 0 1 2 0 0 3 1 1 0 0 1 0 1 1 0 1 2 0 0 2 3 1 1 1 0 0 1
## [223] 0 0 1 1 1 3 1 0 2 1 2 2 0 2 0 0 2 0 2 1 1 2 1 0 1 0 1 2 2 1 2 0 1 1 0 3 2
## [260] 2 0 0 1 1 2 0 1 1 0 1 2 0 2 0 0 0 2 0 1 0 1 0 2 0 0 2 2 1 0 1 0 0 1 0 0 3
## [297] 1 0 2 0 2 1 3 0 2 0 0 1 0 1 1 1 0 0 0 1 2 2 2 3 1 0 1 1 1 2 2 0 0 0 0 2 0
## [334] 1 1 0 2 1 0 1 1 0 0 0 2 0 2 0 2 0 3 0 1 3 0 0 0 0 3 1 0 0 0 1 3 0 2 1 2 1
## [371] 3 1 0 0 2 1 1 1 1 1 0 1 0 0 3 1 0 2 2 0 0 0 1 1 0 3 1 1 0 1 0 2 1 0 1 0 1
## [408] 1 0 0 1 1 0 2 2 1 0 3 2 2 0 0 1 1 1 0 1 1 1 1 1 1 2 1 1 2 0 1 3 1 0 1 0 1
## [445] 1 1 0 2 2 1 1 3 1 3 2 0 3 1 0 0 0 1 1 0 2 1 0 0 0 1 1 1 0 1 1 0 0 2 1 1 1
## [482] 2 0 0 1 2 1 0 0 2 0 1 0 0 0 2 1 1 1 1 1 0 1 0 0 1 2 1 1 0 1 0 0 0 0 0 1 1
## [519] 1 1 0 0 1 0 0 0 2 1 1 0 1 1 0 2 1 1 1 1 2 0 0 0 0 0 0 1 0 2 1 0 3 0 1 3 1
## [556] 1 2 3 3 1 0 0 1 0 2 1 1 0 2 0 0 1 1 2 3 2 0 0 1 2 2 2 2 0 4 1 1 2 1 1 1 3
## [593] 1 3 0 1 3 0 1 0 1 4 0 1 0 1 1 3 1 1 0 3 0 0 1 0 2 3 1 1 0 2 2 0 1 0 0 0 1
## [630] 2 0 0 0 0 1 1 1 3 1 0 1 1 2 0 1 1 1 1 2 1 0 0 0 1 2 0 1 1 2 1 1 0 1 1 2 1
## [667] 4 2 0 1 1 2 1 1 2 1 2 2 2 2 1 1 2 0 1 2 1 1 1 2 1 1 1 1 1 0 0 2 4 1 0 2 0
## [704] 2 2 1 2 0 2 1 1 0 0 0 1 0 2 1 0 0 0 0 1 0 1 0 0 1 1 1 0 1 0 1 1 0 1 0 1 1
## [741] 0 0 1 3 0 2 0 0 0 1 1 2 0 2 1 1 0 3 3 2 1 1 1 2 0 3 2 1 1 0 2 3 1 2 0 1 1
## [778] 2 2 1 1 0 2 2 1 2 1 1 0 2 2 0 1 0 3 0 1 2 2 1 1 0 1 1 1 2 1 4 0 0 3 0 1 3
## [815] 0 1 0 1 1 1 0 3 1 1 1 0 0 1 3 1 3 1 0 0 0 0 0 2 2 0 2 0 3 1 1 1 3 1 0 0 0
## [852] 0 1 1 2 2 2 2 0 1 0 0 1 2 0 1 1 1 2 3 0 0 0 0 0 0 0 2 0 1 1 1 1 2 3 0 0 1
## [889] 0 0 0 0 0 1 2 1 0 2 0 0 1 2 0 1 3 2 0 2 1 0 1 1 0 0 0 0 1 3 0 2 0 1 0 0 0
## [926] 1 1 0 1 0 0 0 0 0 1 1 0 0 0 2 0 1 2 1 1 1 1 0 0 3 0 1 0 1 2 0 1 1 0 1 0 1
## [963] 2 2 3 0 4 0 1 3 1 0 0 1 3 1 0 1 1 1 1 0 4 1 0 0 1 1 3 1 2 0 0 1 1 3 0 1 0
## [1000] 1
mean(Po)
## [1] 0.958
var(Po)
## [1] 0.8751111
hist(Po, xlab= "Distribución de Poisson", ylab= "Frecuencia", main= ("Histograma de Poisson"))