U1A4

Daniela Zazueta

11/02/2021

Introducción a la probabilidad

Probabilidad es el lenguaje matemático para cuantidicar la incertidumbre Wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretación frecuentista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \} \]

Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

    1. Que el primer lanzamiento resulte águila.

\[ A=\{AA, AS \} \]

Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a todo.

    1. En la carrera de Ing. qu´´imica hay 300 hombres y 700 mujeres, la proporción de hombres es:

\[ \frac{300}{700+300} = 0.3 \]

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]

Por lo que solo falta contar.

    1. Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres, Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]

y la función para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE)
lanzamientos_10
##  [1] "A" "S" "S" "S" "S" "S" "S" "S" "S" "S"

Podemos calcular la secuencia de frecuencias relaticas de águila:

cumsum(lanzamientos_10 == "A")
##  [1] 1 1 1 1 1 1 1 1 1 1

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 1.00 0.50 0.33 0.25 0.20 0.17 0.14 0.12 0.11 0.10

Distribuciones de probabilidad

Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias, las palabras clave para las distribuciones más importantes son:

  • Distribución Alias
  • Distribución binomial binom
  • Distribución de Poissono pois
  • Distribución normal norm
  • Distribución exponencial exp
  • Distribución t de student t
  • Distribución χ2 chisq
  • Distribución F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Solo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos random según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución esponencial

curve(dexp(x), from=0, to=10)

x <- rbinom (20,1,0.5)
x
##  [1] 0 1 0 0 0 1 1 1 0 0 1 0 1 1 0 0 0 1 0 0

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
## 12  8

e. g. Distribución normal

Si \[x\] es una variable aleatoria, con distribución normal de media 3, y su SD es de 0.5, la probabilidad de que x sea menor que 3.5 se calcula de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

*Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor x tal que:

qnorm(0.7)
## [1] 0.5244005

*Para calcular el mismo cuantil pero para una v.a. normal estándar de media 0 y una sd de 0.5:

qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor de (zα) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Por ejemplo:

qnorm(0.975)
## [1] 1.959964

*Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):

x <- rnorm(100, mean=10, sd=1)
x
##   [1]  9.878903 11.448051 10.772037  9.925626 10.373045 10.000604 11.326640
##   [8]  9.461613  9.747005 10.807933  9.812768 10.610980 10.820443 10.415780
##  [15] 11.096327 10.706279 10.946315 11.533825 11.203205 10.834273  9.013465
##  [22]  9.828759  9.889110  9.237235 10.230834  7.679260  8.870145  9.676555
##  [29]  9.197341  9.683451 11.229311  9.704904  9.137902 10.351607  9.177492
##  [36]  8.950678  9.662653 11.089321 10.284800 10.182525 11.212127  9.229896
##  [43] 11.272380 10.059483 12.099833  9.632623 10.473252 11.222095  9.158188
##  [50]  9.679502 10.388172 10.758372  8.469575  9.135524 10.878055  9.707071
##  [57] 10.333526 10.296720  9.563083 10.294259  9.330094  9.383117 12.779947
##  [64] 11.248037  9.031699 11.324002  9.607736 11.541682 10.703852 10.727915
##  [71] 10.522022 10.395744 10.165493  9.699739 10.798020 10.490590 11.079780
##  [78]  9.663757 11.188334  9.460280  9.405497  9.196107  8.885533 10.039418
##  [85] 10.198406  9.421428  8.516410  9.760752  8.979747  8.754058  9.750694
##  [92] 10.651611 10.018899  9.800845  9.438731 10.967345  9.729605 10.596099
##  [99]  9.991372  8.987738

*Para estimar promedio de x

mean(x)
## [1] 10.10895

*Histograma de frecuencias

hist(x)

*Gráfico de caja y bigotes

boxplot(x)

*Histograma de la muestra (normalizado para que las suma de las áreas de los rectángulos sea 1) junto con la densidad de la población

hist(x, freq=FALSE) #
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)