Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. Wasserman
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \} \]
Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[ A=\{AA, AS\} \] Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción o cociente de una parte, con respecto a un todo.
e.g. En la carrera de ingeniería química hay 300 hombres y 700 mujeres, la proporción de hombres es:
\[\frac{300}{700+300} =0.3 \] Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
e.g. Combinaciones, maneras en las que se puede combinar objetos independientes de su orden
Un comité de 5 personas será seleccionado de un grupo de 6 hombre y 9 mujeres, si la selección es aleatoria, ¿Cuál es la probabilidad de que el cómite este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay 9 mujeres de las cuales se van a seleccionar 2. \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
Función total a calcular las combinaciones es choose (n, r)
choose(6, 3) *choose(9, 2) / choose(15, 5)
## [1] 0.2397602
Una frecuenca relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE )
lanzamientos_10
## [1] "S" "S" "A" "A" "S" "S" "S" "S" "A" "A"
Podemos calcular las secuencias de frecuencias relativas de águila:
cumsum(lanzamientos_10 =="A") # suma acumulada de águilas
## [1] 0 0 1 2 2 2 2 2 3 4
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
## [1] 0.00 0.00 0.33 0.50 0.40 0.33 0.29 0.25 0.33 0.40
Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las ditribuciones más importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{destiny} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución exponencial
curve(dexp(x), from=0, to=10)
#representa la densidad de una exponencial de media 1 entre 0 y 10
Distribución binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 1 1 0 1 0 0 1 0 1 0 1 1 0 0 0 0 1 0 0 0
#Genera 20 observaciones con distribuciones B(1,0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 12 8
e.g. Distribución normal
si \(x\) es una variable aleatoria con distribución normal de media 3, y su desviación tipica es de 0.5, la probabilidad de que x, sea menor que 3.5, se calcula en R de esta forma.
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1 )
x
## [1] 8.682609 11.556450 7.617965 9.672991 9.809126 8.574790 9.633374
## [8] 7.875595 10.819505 10.193454 10.853282 9.630575 10.780271 9.529485
## [15] 11.185185 8.988837 10.400929 8.976920 11.777080 11.880323 9.483454
## [22] 9.138148 8.576987 9.751603 9.527811 10.573843 11.386658 10.831596
## [29] 10.021710 9.373192 10.072119 11.090345 10.703844 10.237872 10.688068
## [36] 7.864581 10.349279 9.319652 11.281137 9.791508 9.828318 11.017455
## [43] 9.814085 10.394201 10.848624 8.677829 9.931122 9.032851 9.225243
## [50] 8.854700 8.622363 10.483206 10.891469 10.162869 9.733380 10.540208
## [57] 10.612373 10.102096 11.160468 8.912760 10.285545 8.525718 10.574372
## [64] 8.708713 8.813411 9.456447 9.371796 10.478063 10.797184 11.447279
## [71] 8.094050 10.271786 8.430838 10.373132 9.711920 10.353378 10.457232
## [78] 9.529831 10.213375 10.396319 8.363004 9.905362 7.019845 8.866949
## [85] 10.537382 7.852320 9.952800 11.055100 9.650393 10.827992 10.414363
## [92] 10.822050 8.945944 9.613915 10.951380 11.078956 8.315658 11.105013
## [99] 9.567884 10.906848
mean(x)
## [1] 9.893913
hist(x)
boxplot(x)
hist(x, freq=FALSE) #Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
P=pnorm(4.78, mean = 0, sd = 1) - (pnorm(-2.34, mean = 0, sd = 1))
P
## [1] 0.9903573
\[ P={0.9903573} \]
f <- c(1,4,4,4,5,5,6,6,6,6,7,8,8,9)
summary(f)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 4.250 6.000 5.643 6.750 9.000
\[ IQR= {3rd Qu - 1st Qu} \]
\[ IQR= {6.450 - 4.250}= 2.5 \]
x <- rnorm(10, mean=3, sd=1 )
x
## [1] 3.8212243 3.5461161 3.1938525 3.9116741 2.3114101 3.5878809 3.1340635
## [8] 2.9844777 3.4171606 0.3883939
x <- rnorm(10, mean=3, sd=1 )
x
## [1] 2.008028 5.594113 3.146945 3.526132 3.603005 3.391986 2.908497 4.960434
## [9] 1.024461 3.018247
x <- rnorm(10, mean=3, sd=1 )
x
## [1] 3.110097 3.340379 2.958168 2.584778 3.474555 2.918591 2.999310 3.834264
## [9] 4.016007 2.958430
Las diferencias que observo es que por como se muestra en los resultados, cada vez nos arroja números diferentes, esto debido a que esta función trabaja en modo aleatorio
Po <- rpois(1000, 1)
Po
## [1] 0 1 0 1 0 2 1 1 2 3 2 1 0 0 0 0 0 0 5 1 2 1 2 0 0 2 2 2 0 0 0 0 0 3 0 2 1
## [38] 2 3 2 1 2 0 0 0 0 0 3 0 1 0 0 0 0 0 0 0 1 1 0 1 0 1 5 0 2 1 1 0 1 0 0 1 0
## [75] 0 1 1 2 1 6 0 2 2 1 2 0 0 2 1 0 0 0 0 1 0 0 2 0 0 2 0 0 1 1 3 0 2 0 0 1 1
## [112] 0 1 0 0 1 0 3 0 0 1 4 2 1 3 0 3 0 0 2 0 1 1 0 2 1 1 0 0 0 0 0 0 1 0 0 0 1
## [149] 0 0 1 0 1 1 0 1 1 0 1 0 2 0 2 0 1 0 0 0 2 0 1 0 0 0 1 1 0 2 0 1 1 2 1 0 0
## [186] 0 1 2 2 0 1 1 2 1 1 0 0 1 0 0 3 1 1 0 0 2 1 1 1 1 0 3 2 1 0 0 0 0 0 1 0 0
## [223] 1 1 0 2 0 2 1 2 1 0 2 0 1 0 0 1 1 2 1 2 2 1 1 1 2 0 1 1 2 1 0 0 2 0 1 0 2
## [260] 0 0 1 1 2 1 1 1 0 0 1 0 1 3 1 1 3 1 0 0 0 1 0 2 0 1 0 2 4 1 1 1 0 1 1 1 0
## [297] 1 0 2 0 0 2 1 0 0 2 1 1 1 0 0 2 1 1 1 2 1 1 0 0 1 2 2 1 1 1 2 1 0 1 1 2 0
## [334] 2 1 1 1 3 1 1 2 0 1 3 1 0 2 1 2 0 1 0 1 0 1 1 0 0 0 0 0 2 2 0 1 3 1 1 2 0
## [371] 1 2 1 3 1 3 1 0 2 0 2 3 1 3 1 3 1 1 0 0 4 2 1 0 0 0 0 1 1 1 2 1 0 1 3 0 0
## [408] 2 1 1 0 1 0 1 1 3 3 0 1 3 4 0 5 0 0 2 0 1 1 1 3 1 0 0 1 2 0 1 1 0 0 1 1 1
## [445] 3 0 0 1 0 0 0 1 0 2 2 0 1 1 0 0 0 0 1 2 2 1 1 1 2 0 0 3 0 0 1 0 1 0 1 3 0
## [482] 1 3 0 2 2 2 1 1 1 0 2 0 0 1 1 1 2 0 1 0 2 0 0 1 0 1 3 1 0 0 3 0 2 2 1 1 2
## [519] 0 1 0 1 1 3 3 1 1 0 0 0 2 3 2 1 0 1 1 1 1 1 1 2 0 2 3 1 0 0 1 0 0 0 0 1 0
## [556] 0 0 1 1 3 0 0 2 2 1 1 0 0 2 0 1 0 2 0 3 0 1 2 1 1 1 2 3 2 1 0 1 0 4 2 0 2
## [593] 0 1 0 1 0 1 2 3 2 1 1 0 1 1 1 2 0 2 2 1 3 0 2 1 1 2 0 0 1 0 1 2 0 0 0 1 1
## [630] 2 1 2 0 0 4 1 1 0 0 1 2 3 1 4 1 1 1 1 0 1 0 1 1 2 4 3 0 1 1 0 1 0 2 2 0 3
## [667] 0 1 0 1 0 0 1 0 2 0 2 1 0 2 1 1 2 1 1 4 0 2 2 1 1 0 2 1 0 1 1 0 0 1 1 2 0
## [704] 0 0 1 0 0 2 2 3 0 0 2 2 0 0 3 3 4 1 1 1 0 0 1 2 0 1 0 0 3 0 3 2 1 0 1 0 0
## [741] 1 1 1 0 1 0 0 0 1 1 2 1 0 1 0 1 0 0 2 0 0 3 1 1 0 0 3 0 2 3 1 0 3 1 0 0 0
## [778] 1 1 0 1 1 1 1 2 0 0 0 0 1 2 2 2 1 0 0 1 0 3 0 1 3 0 1 0 1 1 0 1 1 0 0 1 0
## [815] 1 1 0 1 1 0 2 2 0 1 0 1 5 0 0 1 0 2 1 0 2 0 2 0 0 1 1 1 1 0 5 2 1 0 1 0 0
## [852] 1 0 3 0 4 0 1 1 1 2 0 0 0 0 1 3 2 1 0 1 1 1 1 0 1 1 1 1 0 1 2 0 0 2 2 1 0
## [889] 0 1 3 0 1 2 1 1 1 1 1 0 0 2 2 0 1 1 1 0 0 1 1 1 2 1 1 0 1 0 0 5 2 1 0 0 3
## [926] 0 0 2 0 1 1 0 1 1 0 0 2 0 0 1 1 1 1 1 2 0 4 0 0 0 1 1 0 0 0 1 1 1 1 4 1 0
## [963] 1 1 1 0 1 1 0 1 0 1 0 1 0 1 2 0 1 1 2 0 0 1 1 4 3 1 0 2 0 0 1 0 0 2 1 2 2
## [1000] 2
mean(Po)
## [1] 0.96
var(Po)
## [1] 1.031431
hist(Po, xlab= "Dist. de Poisson", ylab = "Frecuencia", main = paste ("Histograma de Poisson"))
Los números obtenidos con la distribución de Poisson no se parecen tanto a los valores teóricos, debido a que son diferentes parámetros utilizados, los números teóricos arrojan más decimales, mientras que Poisson número enteros