Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. Wasserman
El espacio de resultados \(\Omega\) es el cojunto de resultados de un experimento aleartorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[\Omega =\{AA, AS, SA, SS \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayusculas.
e.g. Que la primer lanzamiento resulte águila.
\[ A=\{AA, AS\} \] Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Quimica hay 300 hombres y 700 mujeres, la proporción de hombres es:
\[\frac{300}{700+300}=0.3 \] Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.
Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad de evento A es el numero de resutados en A dividiendo entre el numero total de posibles resultados:
\[P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
e.g. Combinaciones
Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleartoria, ¿cuál es la probabilidad de que el comite este conformando por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comites, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay $ $ posibles comites que incluyen 3 hombres y 2 mujeres, por lo tanto, la posibilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose (n, r).
choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente ocurre una u otra cosa en una sucesión de observaciones.
lanzamiento_10 <- sample(c("A", "S"),10, replace = TRUE)
lanzamiento_10
## [1] "A" "A" "S" "A" "S" "S" "A" "A" "S" "A"
Podemos calcular las secuencias de frecuencias relativas de águila:
cumsum(lanzamiento_10 == "A") #suma acumulada de aguila
## [1] 1 2 2 3 3 3 4 5 5 6
Dividiendo
round(cumsum(lanzamiento_10 == "A") / 1:10, 2)
## [1] 1.00 1.00 0.67 0.75 0.60 0.50 0.57 0.62 0.56 0.60
Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:
\[ \begin{array}{{|c|l|l|l|}} \text{función} & \text{Significado} & \text{uso}& \text{Observación}\\ \hline p & \text{probability} & \text{calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{calcula probabilidades puntuales} & \text{solo uso gráfico en el caso continuo}\\ r & \text{random} & \text{genera datos aleartorios segun una distribucion especifica} & \text{---}\\ \hline \end{array} \]
Distribución Exponencial
curve(dexp(x), from=0, to=10)
#represnta la densidad de una exponencial de media 1 entre 0 y 10
Distribución binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 1 1 1 0 1 0 0 1 1 1 1 1 0 0 1 0 0 1 0 1
# genera 20 observaciones con distribución B(1,0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 8 12
e.g. Distribución normal
si \(X\) es una variable aleartoria con distribución normal de media 3, y si desviacion tipica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las formulas para intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1)
x
## [1] 10.168080 11.130775 9.980614 11.476622 10.198178 9.834676 10.171492
## [8] 9.090655 10.379566 11.422599 10.224509 8.962850 9.966614 11.307463
## [15] 7.091925 10.362181 9.133227 10.802840 12.352146 8.818451 10.088551
## [22] 10.985670 9.261534 10.920934 9.688395 11.589707 8.740813 11.208945
## [29] 10.262138 10.845283 10.572237 11.290002 11.097715 10.954482 10.722657
## [36] 10.942939 11.615665 10.653453 9.578802 10.236650 9.949082 9.575427
## [43] 9.196968 9.848695 10.523448 9.628515 10.173706 9.912195 10.470671
## [50] 9.159498 12.793372 9.024865 9.656653 8.402729 10.626113 9.831867
## [57] 10.393909 9.955213 9.736902 10.795156 9.942596 10.500808 8.865289
## [64] 10.756900 12.483329 9.644970 11.182123 9.273837 10.746064 9.369259
## [71] 8.680772 11.198205 8.905795 12.083646 10.383094 8.294517 8.776976
## [78] 8.966608 10.622873 10.804289 11.547060 9.814000 12.027278 11.547917
## [85] 9.559706 10.556536 11.427683 11.263666 11.016010 9.773332 10.868857
## [92] 11.568156 9.363697 9.525467 10.607107 10.441025 9.833654 10.824657
## [99] 10.366977 11.052433
mean(x)
## [1] 10.28254
hist(x)
boxplot(x)
hist(x, freq=FALSE) #freq=FALSE, para qie el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
1. si \(z\) es una variable con distribución normal estándar, calcula *((-2.34<Z<4.78))
Solución
pnorm(4.78) - pnorm(-2.34)
## [1] 0.9903573
2. Calcula el rango intercuartilico de una población normal estándar.
Solución
x <- c(2, 3, 4, 5, 5, 7, 7, 8, 8, 9)
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 4.25 6.00 5.80 7.75 9.00
IQR(x)
## [1] 3.5
3. Genera una muestra de tamaño 10 de una población estándar. ¿Cuál es la diferencia entre la media muestral y la población? Repite el ejercicio 3 veces y anota las 3 diferencias.
Solución
x <- rnorm(10, mean=3, sd=2)
x
## [1] 4.054301 4.270696 3.363209 1.574910 3.438639 3.643627 2.528233 1.782489
## [9] 2.791678 2.792855
mean(x)
## [1] 3.024064
x <- rnorm(10, mean=5, sd=2)
x
## [1] 5.383354 0.958734 3.720070 6.896192 7.232246 6.428462 6.995364 5.568681
## [9] 3.954680 2.207036
mean(x)
## [1] 4.934482
x <- rnorm(10, mean=3, sd=1)
x
## [1] 2.895101 2.386528 3.752520 3.179055 1.857106 3.334549 3.732929 2.829726
## [9] 2.911928 1.848329
mean(x)
## [1] 2.872777
En las 3 muestras se generan datos aleartorios pero en cada una genera respecto a la media valores cercanos y el rango en el que se desvia esa proporcion de la muestra
Diferencias
4. Genera 1000 números con distribución de Poisson de parámetro \(\lambda=1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
Solución
x <- rpois(1000, 1)
x
## [1] 1 2 2 1 2 1 0 1 1 1 1 0 0 0 1 1 3 2 1 0 0 0 3 0 2 2 2 2 1 2 1 1 1 2 0 0 0
## [38] 0 1 0 1 0 3 2 0 1 1 1 2 1 0 2 1 2 0 1 1 3 2 3 1 2 2 0 1 1 1 3 2 1 0 0 2 1
## [75] 0 1 1 2 1 0 1 2 0 0 1 0 0 0 2 0 0 0 1 1 2 0 0 3 1 0 1 2 1 1 2 0 0 2 3 1 1
## [112] 2 0 0 1 1 0 2 2 1 1 0 1 0 0 3 1 0 0 1 1 2 1 0 0 0 0 0 2 0 0 2 1 3 1 3 2 3
## [149] 1 2 2 1 2 0 2 1 2 2 0 0 1 1 0 0 1 0 1 0 0 0 0 1 1 1 0 2 1 0 0 1 3 2 1 1 2
## [186] 3 0 3 1 1 1 2 1 2 1 3 0 0 0 2 0 0 1 1 1 2 2 0 0 3 1 2 2 1 1 0 0 0 3 2 1 3
## [223] 1 2 0 1 1 1 0 1 1 3 1 1 1 0 0 3 0 1 0 0 0 2 1 0 1 1 2 2 2 1 0 1 1 0 1 1 0
## [260] 1 1 1 1 1 0 0 1 2 2 3 2 1 1 2 1 0 1 1 0 2 0 0 0 2 0 0 2 0 2 0 2 3 0 0 0 1
## [297] 1 0 3 1 1 0 1 0 3 2 0 1 0 1 2 0 0 1 1 1 1 1 1 0 1 0 1 0 0 0 0 1 0 2 0 2 1
## [334] 2 2 1 4 1 0 0 3 1 0 1 0 1 0 1 1 2 2 1 1 1 1 0 1 1 3 2 3 1 1 0 1 1 0 1 2 3
## [371] 1 0 2 1 0 0 1 2 0 1 0 0 2 1 1 1 3 0 0 1 1 0 0 2 2 1 0 0 1 2 5 2 0 0 0 2 2
## [408] 1 2 1 0 0 0 2 1 1 1 3 1 0 1 0 1 1 0 0 1 2 0 0 0 0 0 0 1 1 0 1 0 1 1 0 0 0
## [445] 0 0 0 0 1 1 1 0 1 3 1 1 0 0 0 0 2 1 0 0 1 1 1 1 0 1 2 0 2 2 3 4 1 2 0 0 0
## [482] 2 2 1 1 5 1 1 1 0 1 1 1 1 0 2 0 0 2 0 1 1 1 1 3 1 3 0 3 1 0 1 0 0 2 0 1 2
## [519] 1 1 1 1 2 0 1 1 3 3 2 0 0 0 0 0 0 1 1 1 0 1 0 1 1 1 1 0 2 1 1 0 1 2 1 2 0
## [556] 0 1 0 0 4 1 0 3 0 1 0 0 0 2 1 4 2 2 2 1 3 1 2 2 1 1 0 1 2 2 4 1 3 0 2 1 0
## [593] 2 0 2 1 0 0 4 0 1 0 0 2 1 3 0 2 1 0 1 2 1 0 1 1 0 0 1 0 0 1 1 0 1 0 1 1 0
## [630] 1 1 0 0 1 1 0 1 2 0 1 2 1 1 1 1 0 2 1 0 1 2 0 1 2 0 0 0 0 1 1 2 1 1 0 1 2
## [667] 0 1 1 2 1 1 0 0 0 0 2 0 0 2 0 0 1 1 2 0 1 1 2 1 0 1 1 0 2 2 2 2 1 5 0 2 0
## [704] 2 1 2 0 0 2 1 1 3 0 1 0 1 1 3 0 0 2 1 1 0 1 2 1 2 0 0 0 2 0 1 0 0 0 1 0 0
## [741] 1 0 2 2 0 1 3 1 1 1 0 0 2 0 1 0 0 0 1 3 2 2 0 1 0 2 1 2 1 1 0 0 0 0 0 1 1
## [778] 1 1 0 1 2 2 2 0 1 0 1 0 1 1 0 1 0 2 1 0 1 0 1 0 2 0 2 3 1 0 1 0 1 1 0 1 0
## [815] 1 1 1 0 2 4 2 0 1 0 3 2 3 2 2 1 2 0 0 1 1 0 1 0 0 0 0 1 0 2 0 1 1 1 0 0 1
## [852] 1 5 1 0 1 1 1 0 0 0 2 0 1 0 2 1 1 0 2 0 0 0 1 0 2 1 2 2 0 1 0 1 0 1 1 0 0
## [889] 0 0 3 1 1 2 3 0 0 1 2 3 3 1 2 0 0 0 0 0 1 1 0 0 3 0 1 2 3 0 3 1 0 1 1 0 1
## [926] 0 3 0 1 2 0 0 0 1 0 1 0 1 1 2 0 0 1 0 1 0 2 0 4 1 0 2 2 1 1 1 0 1 1 2 1 2
## [963] 2 0 0 1 1 0 2 1 2 1 2 1 1 2 1 3 3 0 0 0 1 1 3 1 0 0 1 1 0 1 1 2 1 0 0 1 1
## [1000] 1
mean(x)
## [1] 0.981
var(x)
## [1] 0.9215606
hist(x, xlab="Distribución de Poisson", ylab="Frecuencia", main="Histograma de Poisson", col="blue", border = (color="black"))
No se parecen a los datos teoricos.