Introducción a la probabilidad
Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. -Wasserman
- Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
- Interpretación frecuentista de la probabilidad.
- Probabilidad condicional y su relación con la independencia.
Espacio de resultados y eventos
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces: \[\Omega = \{AA, AS, SA, SS \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[ A=\{AA, AS\} \] ## Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Química hay 300 estudiantes que son Hombres y 700 Mujeres, la proporción de hombres es:
\[ \frac{300}{700+300} =0.3 \] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)}\] Por lo que solo hace falta contar.
e.g. Combinaciones
Un comite de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres, si la selección es aleatoria, ¿Cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma probabilidad de ser selecionado.
por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15, 5)## [1] 0.2397602
Interpretación frecuentista de la probabilidad
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u ora cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE )
lanzamientos_10## [1] "A" "A" "S" "S" "A" "A" "A" "S" "A" "S"
Podemos calcular las secuencia de frecuencia relativa de águila.
cumsum(lanzamientos_10 =="A") #Suma Acumulada de águila## [1] 1 2 2 2 3 4 5 5 6 6
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)## [1] 1.00 1.00 0.67 0.50 0.60 0.67 0.71 0.62 0.67 0.60
##Distribuciones de probabilidad
**Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:
- Distribución Alias
- Distribución bionomial binom
- Distribución de Poisson pois
- Distribución normal norm
- Distribución exponencial exp
- Distribución t de Student t
- Distribución Choi2 chisq
- Distribución F f
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{Probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial
curve(dexp(x), from=0, to=10)#Representa la densidad de una exponencial de media 1 entre 0 y 10Distribución binomial
x <- rbinom(20, 1, 0.5)
x## [1] 0 1 1 0 1 1 1 1 0 0 0 1 0 0 0 0 1 1 1 0
#Genera 20 observaciones con distribución B(1,0.5)Contando éxitos vs fracasos
table(x)## x
## 0 1
## 10 10
e.g. Distribución Normal
si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5, se calcula en R de la siguiente forma.
pnorm(3.5, mean=3, sd=0.5)## [1] 0.8413447
- Para calcular el cuantil 0.7 de una variable aleatoria normal estanar Z, es decir, un valor x tal que
qnorm(0.7)## [1] 0.5244005
- Para calcular el mismo cuantil pero para una variable aleatoria de media 0 y una DT de 0.5
qnorm(0.7, sd=0.5)## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas formulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)## [1] 1.959964
- Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en unvector x):
x <- rnorm(100, mean=10, sd=1 )
x## [1] 9.865900 9.617421 9.329733 7.614604 9.218748 9.965849 9.216769
## [8] 10.057264 9.547224 9.937077 10.247719 10.197046 9.462639 11.297285
## [15] 9.720579 9.371362 8.945700 10.648414 9.743877 10.230232 8.727515
## [22] 9.988863 11.578306 10.056606 11.368535 9.652469 7.930425 9.884781
## [29] 9.891929 10.602752 11.333937 10.574096 10.285142 9.967257 11.719172
## [36] 9.162834 9.067717 10.468928 8.702651 10.051568 12.600991 10.274975
## [43] 10.156121 10.880340 10.152021 11.652869 9.105805 8.998074 10.645335
## [50] 11.564693 10.226190 10.051923 10.053243 10.407512 9.272314 11.326621
## [57] 10.229645 11.495144 10.423912 8.599766 8.241309 10.049686 10.647385
## [64] 10.268676 11.394936 8.633643 10.449542 10.527854 11.242797 9.714125
## [71] 9.590981 9.406566 11.601518 11.435915 9.715199 10.286408 9.537295
## [78] 11.180635 10.028917 8.715680 10.146399 9.362606 9.250558 10.457958
## [85] 9.177269 11.776784 9.367057 8.999694 8.948170 9.388801 9.400534
## [92] 11.314021 8.191730 11.652432 11.076216 7.857453 9.875216 8.661956
## [99] 11.082282 10.956896
- Para estimar el promedio de x
mean(x)## [1] 10.02982
- Histograma de frecuencias
hist(x)*Gráfico de caja y bigote
boxplot(x)- Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población.
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)Ejercicios
- Si \(z\) es una variable con distribución normal estandar, calcular \(\mathbb{P}(-2.34 < z <4.78\).
p= pnorm(4.78, mean=0, sd=1) - (pnorm(-2.34, mean=0, sd=1))
p## [1] 0.9903573
- Calcular el rango intercuartilico de una población normal estándar.
l <- c(1,2,2,2,3,3,6,6,6,7,7,8,8,9)
summary(l)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 2.25 6.00 5.00 7.00 9.00
\(IQR= 3rdQ-1stQ\) \(IQR=7.00-2.250=4.75\)
- Genera una muestra de tamaño 10 de una población normal estándar. ¿ Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
x <- rnorm(10, mean=5, sd=1)
x## [1] 5.951060 4.012140 5.425343 5.344645 6.607100 5.324467 5.080988 5.290802
## [9] 4.443126 3.863853
x <- rnorm(10, mean=5, sd=1)
x## [1] 4.608327 5.741748 7.077125 3.265777 4.723329 5.960756 4.821723 4.721068
## [9] 3.840260 4.208175
x <- rnorm(10, mean=5, sd=1)
x## [1] 4.575783 4.933106 4.322578 5.402596 4.089864 4.418843 6.728171 5.165576
## [9] 5.810779 6.345037
#Conclusión: Se observa que cada partida de números generados son distintos entre si, osea que, los números no se repiten, por lo que es una variable aleatoria. Por otra parte la diferencia entre una media muestral es que se calcula a partir de la media aritmética de un conjunto de valores y la media poblacional, es el valor esperado de una variable aleatoria.
- Genera 1000 números con distribución de Poisson de parámetro λ=1 Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿ se parecen a los valores teóricos?
Po <- rpois(1000,1)
Po## [1] 2 0 1 2 1 1 1 2 0 4 3 0 0 0 1 2 2 1 1 1 2 2 3 2 0 1 1 0 1 3 0 0 0 1 3 0 2
## [38] 2 1 1 3 2 1 1 0 0 1 1 1 1 1 2 2 2 0 1 1 3 0 1 0 0 2 1 0 1 0 0 3 3 1 0 0 2
## [75] 0 0 1 2 0 2 0 0 2 1 1 1 1 0 0 2 2 1 1 0 0 0 1 3 0 1 0 2 1 2 3 4 1 2 1 0 1
## [112] 1 2 0 1 1 2 0 0 0 1 2 1 0 0 2 3 2 0 1 1 1 3 3 1 0 1 2 0 0 1 1 0 0 2 0 0 2
## [149] 1 0 1 4 3 2 0 0 0 0 2 0 1 0 1 0 1 1 0 0 2 2 0 0 1 0 0 3 0 1 1 1 0 1 0 1 1
## [186] 2 1 4 0 0 1 4 1 2 1 1 1 0 1 2 2 2 0 3 0 1 2 0 0 2 0 0 0 0 0 1 4 0 0 1 1 2
## [223] 0 0 2 0 0 0 2 0 1 0 3 2 2 2 0 0 1 1 0 3 0 0 3 2 1 0 3 0 1 1 0 0 2 0 2 0 1
## [260] 1 0 0 1 2 1 1 0 3 2 0 1 1 1 1 3 2 1 1 0 1 1 0 0 1 3 2 1 1 1 1 0 1 2 0 2 1
## [297] 1 2 3 3 4 2 1 2 0 1 0 0 0 3 2 1 2 1 2 0 2 2 0 1 0 2 3 0 0 0 2 2 2 1 1 3 2
## [334] 0 3 3 1 1 0 0 2 0 5 0 2 2 2 0 0 0 1 1 2 0 2 2 0 4 3 1 0 1 2 1 1 3 1 1 0 0
## [371] 1 0 1 3 0 0 0 1 1 1 0 0 1 0 0 0 0 0 2 2 1 0 0 1 2 2 1 0 0 0 0 1 2 0 1 1 1
## [408] 0 2 0 1 1 1 1 1 0 2 1 1 1 1 1 1 0 2 3 1 0 1 2 0 0 1 2 1 2 0 4 2 0 1 3 3 2
## [445] 1 1 0 1 3 1 0 0 1 0 1 1 1 1 0 1 2 1 1 2 0 0 2 2 0 2 2 0 1 1 1 1 0 2 2 0 1
## [482] 1 0 5 1 0 2 4 1 2 1 1 0 0 2 1 2 1 0 0 2 1 0 2 0 2 2 1 0 1 1 2 1 0 1 1 3 2
## [519] 1 3 0 1 2 1 2 0 1 0 0 1 0 2 3 3 0 0 2 0 0 1 1 0 2 1 0 0 1 0 2 1 0 0 1 3 0
## [556] 0 3 1 0 0 2 1 2 0 2 0 1 2 3 1 1 2 2 0 0 1 1 0 0 0 1 0 1 1 0 3 0 1 0 1 1 1
## [593] 0 0 1 1 1 0 2 1 3 3 1 1 0 2 0 1 1 2 1 0 1 0 1 0 1 0 2 1 3 2 0 2 2 1 2 1 0
## [630] 2 0 2 1 2 1 0 0 1 0 3 0 0 0 0 1 2 1 1 1 1 2 2 0 0 1 0 2 1 1 1 1 1 1 2 1 1
## [667] 0 0 1 2 3 0 0 0 0 2 2 1 0 0 3 2 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 1 0 4 3 0
## [704] 0 2 0 1 2 0 0 2 1 1 0 1 0 1 0 3 2 2 1 0 4 3 0 2 1 0 3 0 0 1 0 1 1 0 2 0 2
## [741] 0 2 0 0 0 2 0 2 1 0 2 1 1 3 1 1 0 1 2 0 2 2 0 2 2 0 0 0 1 2 1 1 1 2 0 2 0
## [778] 1 0 1 2 2 1 0 2 1 0 1 1 0 3 1 0 2 1 0 0 0 0 3 0 1 1 4 0 1 0 0 1 0 1 1 2 3
## [815] 1 1 0 0 2 1 2 1 0 1 1 1 0 1 0 3 2 1 2 2 1 1 0 0 1 1 1 0 1 3 4 2 2 0 1 0 3
## [852] 2 2 1 3 1 2 1 2 1 0 0 1 3 0 1 1 2 3 2 1 0 0 2 1 1 2 1 1 2 2 0 1 1 0 0 2 0
## [889] 0 2 0 0 0 0 2 0 2 1 2 0 2 1 0 0 2 1 1 0 1 2 1 0 1 0 2 1 0 3 2 2 1 1 0 3 1
## [926] 2 2 0 1 1 0 0 3 3 1 0 2 1 1 0 1 0 0 2 2 1 2 0 0 0 1 1 3 1 0 0 0 0 1 1 0 0
## [963] 0 0 1 0 0 0 3 1 1 1 0 1 1 1 0 0 1 2 4 0 1 0 1 0 1 0 0 2 1 0 0 1 2 1 4 0 0
## [1000] 0
- Calcular el promedio
mean(Po)## [1] 1.044
*Calculo de varianza
var(Po)## [1] 1.021085
*Histograma de Frecuencia
hist(Po, xlab= "Dis de Poisson", ylab= "Frecuencia", main= ("Histograma de Poisson"))5.Calcula con R los siguientes valores: t3,α, chi23,α, para α=0.05 y α=0.01 Compara los valores obtenidos con los que aparecen en las correspondientes tablas.