Repaso de probabilidad
" Probabilidad es el lenguaje matemático para cuantificar la incertidumbre." Wasserman
- Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
- Interpretación frecuentistas de la probabilidad.
- Probabilidad condicional y su relación con la independencia.
- La regla de Bayes.
Espacio de resultados y eventos
El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[\Omega =\{AS, AS, SA, SS\}\] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[A = \{AA, AS\}\]
Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Química hay 300 hombres y 700 mujeres, la proporción de hombres es:
\[\frac{300}{700+300} =0.3\]
Eventos equiprobables Si todos los eventops en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de reusltados en A dividido entre el nuérmo total de psoibles resultados:
\[P(A)= \frac{\#(A)}{\#(\Omega)}\]
Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{15}\) hay posibles comités, cada uno la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres.
\[\frac{\dbinom{6}{3} \dbinom {9}{2}} {\dbinom {15}{15}}\]
Y la función para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose (15, 5)## [1] 0.2397602
Interpretación frecuentista de la probabilidad
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE)
lanzamientos_10## [1] "S" "S" "S" "A" "A" "S" "S" "S" "S" "A"
Podemos calcular las secuencia de frecuencias relativas de águila:
cumsum(lanzamientos_10 =="A")##Suma acumulada de águilas## [1] 0 0 0 1 2 2 2 2 2 3
Dividiendo
round(cumsum(lanzamientos_10 == "A")/ 1:10, 2)## [1] 0.00 0.00 0.00 0.25 0.40 0.33 0.29 0.25 0.22 0.30
Distribuciones de probabilidad
**Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clase o alias. La palabra clave para las distribuciones más importantes son:
- Distribución Alias
- Distribución binomial bínom
- Distribución de Poisson pois
- Distribución normal norm
- Distribución exponencial exp
- Distribución t de Student t
- Distribución chi2 chisq
- Distribución F f
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial
curve(dexp(x), from = 0, to = 10)##Representa la cantidad de una exponencialDistribución binomial
x <- rbinom(20, 1, 0.5)
# Genera 20 observaciones con distribución B(1, 0.5)
#Genera números aleatorios
x## [1] 1 0 0 1 1 1 0 1 0 1 1 0 1 1 1 0 1 1 1 0
Contando éxitos vs fracasos
table (x)## x
## 0 1
## 7 13
e.g Distribución normal Sí \(x\) eses una variable aletoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)## [1] 0.8413447
- Para calcular el cuartil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que
qnorm(0.7)## [1] 0.5244005
- Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd = 0.5)## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)## [1] 1.959964
- Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean = 10, sd = 1)
x## [1] 9.473663 9.448190 9.519106 10.614637 10.729823 10.195054 11.367604
## [8] 10.287451 9.393010 8.518032 7.904938 10.555450 9.808645 8.938785
## [15] 9.774938 11.015334 11.186223 9.825073 9.374188 9.421100 10.214297
## [22] 10.247108 10.828265 10.072261 10.570602 8.807958 9.064096 9.132162
## [29] 9.340780 8.989231 9.066287 11.379829 9.709851 10.585113 9.712599
## [36] 10.465598 8.337342 8.623438 9.799115 9.518940 10.441430 9.307540
## [43] 10.383802 9.557677 9.242974 10.705085 11.581679 12.278340 9.408568
## [50] 8.187243 8.963644 10.228166 12.055692 10.020468 10.366035 9.398259
## [57] 11.505955 10.560782 11.404120 10.336972 7.875121 9.606580 10.534005
## [64] 10.319187 9.342455 10.443470 9.196625 8.899851 8.857665 9.612940
## [71] 9.717185 11.088417 9.803647 11.039959 9.111497 10.337811 10.864221
## [78] 9.561714 9.352077 10.638948 11.120785 10.084240 9.575729 8.992977
## [85] 9.340278 11.421004 11.467923 8.432445 9.542502 7.218603 10.906076
## [92] 11.220972 9.134276 10.072269 10.916574 10.372165 9.470064 9.155490
## [99] 10.812854 9.055002
- Para estimar el promedio de x
mean(x)## [1] 9.922662
- Histograma de frecuencias
hist(x)- Gráfico de cajas y bigote
boxplot(x)- Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq = FALSE) # Freq = FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean = 10, sd = 1), from = 7, to = 13, add = TRUE)Repaso de lo aprendido
Probabilidad: Se refiere a las posibilidades de que pueda ocurrir algo dependiendo de las condiciones en que se encuentre.
Espacio de resultados: Consiste en todos los posibles resultados que se puedan presentar en un experimento aleatorio.
Eventos: Es una parte en particular de los resultados, pero en un contexto específico, es parte del espacio muestral.
Eventos equiprobables: Es la proporción de que ocurra un evento aleatorio.
Combinaciones: Es la manera en que se pueden mezclar objetos sin importar como estén ordenadas, en esta, lo importante el contenido es importante.
Frecuencia relativa: Se refiere a que tan frecuente ocurre algo en un experimento.
Distribución exponencial: Es como se comportan los eventos que suceden.
Distribución binomial: Significa la probabilidad de tener exitos y fracasos existentes en el experimento.
Distribución normal: Se utiliza para determinar con que frecuencia sucede algo.
Histograma de frecuencias: Es una representación gráfica en barras según la frecuencia de los valores encontrados.
Gráfico de cajas y bigote: Ubica los valores, como cuantiles, máximo, minimo y valores extremos de manera gráfica o aticidad.
Histograma de la muestra: Dibuja una curva en el histograma presentado anteriormente.