Probabilidad es el lenguaje matematico para cuantificar la incertidumbre Wasserman
El espacio de resultados \(\Omega\) es el conjunto de resulados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \} \]
Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[A=\{AA,AS\} \]
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Química hay 300 Hombres y 700 Mujeres, la proporción de Hombres es:
\[\frac{300}{700+300} =0.3 \]
Eventos equiprobables Si todos los elementos en el espacio de resultado tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[P(A)=\frac{\#(A)}{\#(\Omega)}\]
Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado en un grupo de 6 hombres y 9 mujeres, Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mijeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}}\]
y la función para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15,5)
## [1] 0.2397602
Una frecuencia relativa es una proporción que mide que tan seguido, o feecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE )
lanzamientos_10
## [1] "S" "S" "S" "S" "A" "S" "S" "A" "S" "A"
Podemos calcular las secuencias de frecuencias relaivas de águila:
cumsum(lanzamientos_10 == "A") #suma acumulada de águilas
## [1] 0 0 0 0 1 1 1 2 2 3
Dividiendo
round(cumsum(lanzamientos_10 =="A") / 1:10, 2)
## [1] 0.00 0.00 0.00 0.00 0.20 0.17 0.14 0.25 0.22 0.30
Funciones en R
En R, cada distribucion de probabilidad se nombra mediante una palabra clave o alías. Las palabras clave para las distribuciones más importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{pobability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (porcentiales)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
Distribución Exponencial
curve(dexp(x), from=0, to=10)
#Representa la densidad de una expenencial de media 1 entre 0 y 10
Dustribución binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 0 0 1 0 0 0 1 1 0 1 1 0 1 0 0 0 0 1 0 1
#Genera 20 observaciones con distribución B(1,0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 12 8
e.g. Distribución normal
si \(X\) es una variable aleatoria con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1)
x
## [1] 9.445449 9.561780 8.765941 10.096363 9.093538 9.521600 10.278152
## [8] 9.000274 11.714917 8.671232 11.185648 9.789050 10.496432 9.911904
## [15] 9.324489 9.907681 9.811845 11.263558 11.389175 9.980315 10.527607
## [22] 9.548610 11.218427 10.341050 10.982707 11.422040 9.720316 10.305605
## [29] 10.154395 11.267438 9.483939 10.044522 10.847750 9.324923 9.260517
## [36] 10.453635 9.687930 11.580319 10.627991 8.913310 8.912122 8.447982
## [43] 9.466234 9.706802 8.353278 10.429917 10.523151 10.869247 7.382434
## [50] 10.963731 8.731767 11.600384 8.342214 11.082797 11.321062 11.627020
## [57] 11.392915 9.709639 10.389552 10.063032 10.350911 9.579566 9.440580
## [64] 8.273629 10.489452 11.203164 10.295034 9.304725 9.585597 8.575927
## [71] 11.299976 9.368050 10.591809 8.910188 11.100169 11.574220 9.723305
## [78] 9.965174 10.109820 7.903279 10.401535 11.086580 9.623437 10.629153
## [85] 8.486735 9.066450 9.295478 9.772003 9.656768 11.105669 9.795832
## [92] 10.292945 12.491100 8.473515 8.771310 8.931541 9.535497 9.574300
## [99] 11.705517 10.564194
mean(x)
## [1] 10.01142
hist(x)
boxplot(x)
hist(x, freq=FALSE) #Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add = TRUE)
P= pnorm(4.78, mean=0, sd=1) - (pnorm(-2.34, mean=0, sd=1))
P
## [1] 0.9903573
x=rnorm(20)
x
## [1] -1.25518906 -0.26591135 -0.78980415 2.26440848 -0.36724601 -0.18410164
## [7] 0.14413777 0.66755016 1.04171806 -0.42140580 -1.90286936 -1.17528256
## [13] 0.01437939 0.05638211 -0.38550382 1.24042688 -0.66343405 -0.20366021
## [19] 1.34036250 1.07838690
IQR(x)
## [1] 1.243005
Muestra 1
x= rnorm(10, mean=5, sd=0.5)
x
## [1] 4.801847 5.238383 4.439706 4.908889 4.524012 5.566584 5.450163 5.276551
## [9] 5.178047 4.691412
Muestra 2
x= rnorm(10, mean=5, sd=0.5)
x
## [1] 5.477529 4.650838 5.686234 4.828806 5.187783 5.178665 5.263019 4.840794
## [9] 5.175056 4.790671
Muestra 3
x= rnorm(10, mean=5, sd=0.5)
x
## [1] 6.047068 4.788634 4.464253 4.939675 5.102575 5.644316 4.771047 5.393802
## [9] 4.690182 4.729409
Poisson <- rpois(1000, 1)
Poisson
## [1] 1 0 1 1 1 4 2 0 0 3 1 1 2 1 0 1 1 2 0 1 0 3 1 0 0 3 1 1 1 1 3 0 0 1 1 1 1
## [38] 1 1 1 1 0 2 1 0 0 1 0 1 0 2 3 2 0 1 1 3 0 1 3 1 1 0 2 0 0 1 1 1 1 0 1 0 0
## [75] 1 1 0 1 0 3 0 0 0 3 0 2 0 1 2 0 1 0 1 1 1 2 1 0 1 0 0 3 0 1 1 1 1 0 2 1 1
## [112] 0 2 1 1 2 2 1 2 2 3 0 1 0 1 1 1 1 1 0 0 1 0 0 3 3 1 3 2 2 2 1 0 0 1 1 1 1
## [149] 1 1 1 1 0 1 0 0 2 0 0 0 1 2 2 1 0 2 1 2 1 2 1 2 1 1 1 1 0 1 2 1 0 2 1 1 0
## [186] 0 1 1 1 1 2 1 3 2 1 1 0 1 0 4 1 0 1 1 1 1 2 2 0 0 2 5 1 2 2 2 4 0 0 2 0 4
## [223] 0 1 0 0 0 0 2 3 2 2 1 2 0 3 0 3 0 0 2 0 2 0 0 2 0 1 0 3 1 0 0 1 0 3 0 1 2
## [260] 2 0 1 1 1 1 2 0 5 0 2 3 0 1 0 2 3 2 3 0 0 1 1 1 1 0 2 1 0 0 1 0 1 1 1 3 0
## [297] 0 0 1 0 0 0 1 1 0 0 0 2 0 0 1 2 1 1 3 0 1 1 3 1 1 1 1 1 1 0 1 1 0 1 1 0 3
## [334] 0 0 1 1 0 1 2 1 0 1 3 4 1 0 0 2 0 1 1 0 2 0 1 2 2 1 0 0 0 0 1 1 3 0 0 0 2
## [371] 1 1 4 1 0 2 5 0 1 0 1 1 0 1 2 1 1 2 2 2 3 0 2 1 2 3 1 0 2 1 0 0 2 2 1 0 0
## [408] 2 2 0 1 1 2 2 0 2 0 3 1 1 0 0 2 1 0 2 2 1 0 0 2 0 0 0 1 0 1 1 1 1 0 1 1 2
## [445] 1 1 2 1 2 1 3 1 1 1 1 1 1 0 1 1 2 1 2 1 2 2 0 2 3 0 1 0 1 1 1 0 1 0 0 0 2
## [482] 0 3 1 1 0 2 0 2 1 1 0 0 0 0 1 0 1 0 0 1 2 2 0 0 4 0 0 1 2 1 2 0 0 2 0 5 1
## [519] 2 2 1 1 1 5 1 0 0 0 0 1 1 1 1 1 1 2 0 0 1 1 1 1 1 1 1 1 2 1 0 3 2 1 3 0 1
## [556] 2 2 1 0 2 0 0 0 0 0 0 0 0 0 0 2 1 2 2 0 1 1 1 0 0 0 0 1 1 0 0 0 2 3 4 1 0
## [593] 0 0 2 0 1 1 1 0 1 2 0 0 0 0 1 2 3 2 1 0 1 1 1 1 0 0 1 0 2 2 4 2 0 1 3 0 0
## [630] 1 0 2 0 0 2 0 0 0 1 2 1 1 1 0 0 2 3 0 2 0 1 0 1 2 0 1 1 0 1 2 0 1 0 3 1 1
## [667] 2 0 1 0 1 2 2 1 2 0 1 0 2 0 3 1 1 0 1 0 2 0 0 1 3 2 0 1 1 2 0 2 1 0 2 0 3
## [704] 0 1 0 2 3 0 2 1 2 1 1 1 0 0 1 0 2 0 2 1 1 3 0 1 0 0 1 1 0 0 1 1 0 3 1 0 0
## [741] 1 0 0 0 0 0 0 1 0 1 1 0 1 0 0 1 2 2 2 1 2 1 2 1 0 1 0 0 1 2 1 1 2 1 0 0 1
## [778] 0 0 0 0 3 0 0 1 1 0 2 2 0 0 3 1 1 0 0 2 0 1 1 0 1 1 0 1 1 2 1 3 2 0 0 1 1
## [815] 3 0 2 2 1 0 2 1 2 1 3 0 1 3 1 3 0 0 1 1 2 2 1 2 1 2 1 1 0 1 0 3 0 0 1 1 0
## [852] 2 0 1 1 0 3 0 1 0 2 0 1 2 0 1 2 1 1 1 2 0 1 1 1 1 1 2 0 1 0 1 0 1 0 0 3 0
## [889] 0 2 0 0 0 0 1 0 0 3 0 0 0 0 1 1 1 1 1 2 1 2 0 1 0 2 1 1 0 2 1 4 0 0 0 2 1
## [926] 3 0 1 1 1 0 2 0 0 0 1 2 2 0 0 2 1 0 3 1 1 3 1 0 0 2 0 0 0 4 0 0 1 2 4 2 0
## [963] 0 4 2 0 2 0 2 0 0 0 0 1 0 0 2 0 0 1 0 0 2 3 1 2 0 1 2 0 2 1 1 1 1 2 0 2 2
## [1000] 0
Media
mean(Poisson)
## [1] 1.007
Varianza
var(Poisson)
## [1] 0.9979489
hist(Poisson)
Los datos que estamos interpretando no se parecen a los teóricos.