setwd("~/Estadistica")Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. -Wasserman
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
Ejemplo. Si lanzamos una moneda dos veces entonces:
\[ \Omega = \{AA, AS, SA, SS\} \] Un evento es un subconjunto del espacio muestral, usualmente se denotan por mayúsculas.
Ejemplo. Que el primer lanzamiento resulte águila.
\[ A = \{AA, AS\} \] ## Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción o cociente de una parte con respecto a un todo.
Ejemplo. En la carrera de IQ hay 300 estudiantes hombres y 700 mujeres, la proporción de hombres es:
\[ \frac{300}{700+300}= 0.3 \] Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos, entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)= \frac{\#(A)}{(\#\Omega)} \] por lo que solo hace falta contar.
Ejemplo. Combinaciones.
Un comité de 5 personas será seleccionado de un grupo de 6 H y 9 M, si la selección es aleatoria, ¿Cuál es la probabilidad de que el comité este formado por 3 H y 2 M?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incliyen 3 H y 2 M, por lo tanto, la probabilida que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}} {\dbinom{15}{5}} \] y la función para calcular las comibaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15 , 5)## [1] 0.2397602
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A", "S"), 10, replace= TRUE)
lanzamientos_10## [1] "S" "S" "S" "S" "A" "S" "A" "S" "S" "S"
Podemos calcular la secuencia de frecuencias relativas de águila
cumsum(lanzamientos_10 == "A") # suma acumulada de águilas## [1] 0 0 0 0 1 1 2 2 2 2
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)## [1] 0.00 0.00 0.00 0.00 0.20 0.17 0.29 0.25 0.22 0.20
Funciones en R
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución exponencial
curve(dexp(x), from=0, to=10)#densidad de una exponencial de media 1 entre 0 y 10Distribución binomial Conteo de éxitos vs fracasos
x <- rbinom(20, 1, 0.5)
x## [1] 1 0 1 0 0 0 0 0 0 1 0 1 0 0 1 1 0 0 0 1
#10 observaciones con distribución B(1,0.5)COntando éxitos vs fracasos
table(x)## x
## 0 1
## 13 7
Ej. Distribución normal
Si \(X\) es una variable aleatoria con dist. normal de media 3, y su desv. est. es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula:
pnorm(3.5, mean=3, sd=0.5)## [1] 0.8413447
La probabilidad de que \(X\) sea menor que 3.5 es de 8.41%
qnorm(0.7)## [1] 0.5244005
qnorm(0.7, sd=0.5)## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas pra intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Algunos ejemplos:
qnorm(0.975)## [1] 1.959964
x <- rnorm(100, mean=10, sd=1)
x## [1] 8.868718 9.864782 9.535844 9.108753 9.009428 7.959719 9.992607
## [8] 10.952812 9.634404 10.153481 9.389543 9.446805 9.659581 11.455023
## [15] 8.783901 11.528005 8.432378 9.563866 10.614594 9.240503 11.872195
## [22] 9.674896 9.311983 11.253026 10.891849 10.391914 9.257823 9.760646
## [29] 8.560800 8.446118 11.468851 10.771199 10.035184 10.405651 8.910096
## [36] 9.971595 7.342829 9.184066 9.562691 11.102532 9.363569 9.920381
## [43] 11.201981 8.742601 9.147444 8.821621 9.972396 12.068574 10.936626
## [50] 8.530383 10.163576 10.215758 11.793362 8.998386 9.769891 10.281252
## [57] 9.550834 10.217552 10.566162 9.940216 9.386814 9.950444 8.436177
## [64] 9.533791 9.907700 9.272390 9.265533 9.162789 8.529869 11.285168
## [71] 10.897945 11.430925 12.281905 10.151178 10.185129 9.814126 9.354061
## [78] 9.164827 10.418336 9.012892 9.167586 10.219431 10.811688 9.769912
## [85] 12.049556 8.085173 8.153548 11.180718 8.218749 10.977405 9.315486
## [92] 10.090913 9.580972 10.389017 10.124340 9.605834 10.660306 10.059039
## [99] 8.787287 9.308424
mean(x)## [1] 9.855706
hist(x)boxplot(x)hist(x, freq=FALSE)
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)EJERCICIOS
p <- pnorm(1.78, mean=0, sd=1)-(pnorm(-2.34, mean=0, sd=1))
p## [1] 0.9528201
k <- c(1,2,3,4,5,6,7)
summary(k)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.0 2.5 4.0 4.0 5.5 7.0
\[ IQR= {5.5-2.5}= 3 \] 3. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repetir el ejercicio 3 veces.
a <- rnorm(10, mean=3, sd=1)
a## [1] 4.367530 2.407869 4.896818 2.942805 3.021406 1.877517 2.784269 3.839973
## [9] 3.142131 2.779789
b <- rnorm(10, mean=2.3, sd=1)
b## [1] 1.437064 3.109791 4.164837 0.857237 0.623613 1.916933 2.343693 2.294206
## [9] 1.243053 1.959795
c <- rnorm(10, mean=2, sd=1)
c## [1] 0.4655848 1.1272417 3.9057535 2.1247105 1.3311387 3.5450032 1.1822078
## [8] 2.7278387 1.6545638 2.2839817
La diferencia entre la media muestral y la muestra poblacional, es que en la primera solamente se toma una parte de la muestra, y en la segunda se toma la población completa del análisis.
o <- rpois(1000,1)
o## [1] 0 1 1 1 1 1 0 1 0 0 0 2 1 1 2 0 0 1 1 0 0 2 1 0 1 1 1 3 2 1 2 0 0 0 3 1 1
## [38] 0 2 1 0 3 0 3 0 0 1 1 0 0 0 1 1 0 0 1 3 1 0 1 1 0 1 0 1 0 1 1 0 3 1 0 0 1
## [75] 1 3 0 0 1 0 2 0 2 0 1 2 0 2 0 2 1 2 1 0 0 3 0 0 1 1 0 0 1 2 1 0 0 4 0 1 3
## [112] 0 1 1 1 2 1 0 3 2 2 1 0 2 0 0 2 1 1 1 0 1 1 1 2 3 0 1 3 3 1 2 1 1 1 0 0 1
## [149] 2 0 1 1 2 0 2 0 1 0 0 1 2 0 0 0 2 2 2 1 0 1 0 0 0 2 1 1 4 2 1 0 2 1 2 0 1
## [186] 3 1 0 2 1 2 0 1 0 3 3 1 1 1 0 1 1 2 0 0 1 1 2 0 0 1 1 2 1 1 0 2 1 0 1 2 3
## [223] 0 0 0 1 1 0 0 0 0 0 1 2 4 1 1 1 1 2 1 2 2 2 1 1 1 1 2 0 1 3 1 3 1 0 0 2 0
## [260] 4 3 2 1 1 0 2 2 3 0 1 1 0 2 0 0 4 0 1 2 3 0 3 1 3 0 0 2 1 0 2 0 0 2 0 1 1
## [297] 0 2 1 1 1 0 2 1 2 1 0 0 2 0 1 0 3 0 1 1 2 1 0 1 3 0 3 1 1 1 0 2 0 0 1 0 2
## [334] 3 1 0 0 3 1 0 0 1 0 2 0 1 1 0 2 0 0 4 2 3 1 2 1 0 3 1 0 0 1 0 0 1 1 0 1 0
## [371] 0 0 2 0 0 1 2 2 2 0 1 3 1 0 0 0 1 3 0 0 1 1 1 1 0 2 1 0 2 1 1 1 1 0 0 0 0
## [408] 2 0 0 0 1 1 1 5 2 1 0 2 0 0 1 0 0 1 0 0 0 3 0 1 0 0 1 1 0 2 1 1 1 0 0 0 0
## [445] 2 1 3 0 0 1 2 1 0 2 2 1 0 1 1 0 2 0 4 2 0 1 2 0 0 1 2 2 1 1 2 0 1 2 0 1 1
## [482] 1 5 0 0 0 1 1 0 0 0 2 1 2 0 0 4 1 1 0 2 1 1 0 0 2 1 2 5 0 1 2 0 1 3 0 3 2
## [519] 1 0 1 1 2 0 1 0 2 0 1 0 0 1 1 2 1 3 0 0 2 1 1 0 0 0 2 1 0 2 2 0 2 1 1 0 3
## [556] 2 0 2 1 0 1 1 0 2 3 2 3 1 0 2 1 0 2 0 4 2 1 3 3 0 0 0 2 1 1 1 0 0 2 1 3 3
## [593] 0 0 0 2 0 0 0 1 0 0 1 3 2 0 0 1 1 2 2 1 1 0 3 2 3 0 0 3 0 1 1 2 0 2 3 0 1
## [630] 2 0 1 2 0 0 1 0 1 0 0 2 0 1 0 1 0 2 2 0 2 3 0 1 1 0 0 1 0 0 2 0 1 0 1 1 1
## [667] 1 1 2 1 2 1 1 0 1 0 1 1 0 0 1 1 0 1 2 1 1 0 1 2 0 1 2 2 2 0 1 0 1 2 1 0 3
## [704] 1 2 1 2 1 0 0 3 2 1 0 0 1 0 0 2 2 0 0 1 2 1 1 2 2 2 0 2 1 0 1 2 1 0 0 1 1
## [741] 1 1 4 0 1 2 3 1 0 2 1 2 6 2 1 3 1 0 1 4 3 2 0 0 1 1 4 1 0 3 2 0 1 1 0 1 4
## [778] 0 0 0 2 0 4 2 1 1 2 2 1 0 1 0 0 0 1 2 1 0 0 2 0 3 1 0 0 1 2 2 3 3 0 2 2 1
## [815] 0 2 1 1 1 1 2 2 0 1 0 1 2 1 0 0 1 1 1 0 2 2 1 0 1 1 0 0 2 0 2 1 1 2 0 0 2
## [852] 0 1 2 0 1 1 0 0 1 1 0 0 2 0 0 2 3 2 0 1 2 1 0 3 2 0 0 0 3 0 2 0 0 2 0 1 2
## [889] 1 2 2 1 0 1 1 0 2 0 0 1 0 2 0 0 1 0 1 0 1 0 1 0 1 2 0 1 0 1 0 1 0 1 1 1 0
## [926] 1 0 0 1 2 0 1 1 4 2 1 2 1 1 2 1 1 0 1 2 1 1 1 1 2 2 0 0 0 1 1 1 5 0 2 2 2
## [963] 0 0 1 0 0 0 1 2 2 2 3 2 0 0 2 1 1 1 1 0 1 2 1 1 2 0 2 1 0 2 0 1 1 1 4 0 1
## [1000] 2
hist(o)mean(o)## [1] 1.039
var(o)## [1] 1.05053
La media y la varianza si se parecen a los números teóricos, ya que la mayoría estan entre 1 y 2.