Introducción a la probabilidad

Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. Wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, Etc.
  2. Interpretación frecuentista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[ A=\{AA, AS\} \] ## Eeventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Química hay 300 Hombres y 700 Mujeres, la proporción de hombres es:

\[ \frac{300}{700+300} =0.3 \] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE  )
lanzamientos_10
##  [1] "A" "A" "S" "S" "A" "A" "A" "S" "A" "S"

Podemos calcular las secuencia de frecuencias relativas de águila:

cumsum(lanzamientos_10 == "A") # suma acumulada de águilas
##  [1] 1 2 2 2 3 4 5 5 6 6

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 1.00 1.00 0.67 0.50 0.60 0.67 0.71 0.62 0.67 0.60

##Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 1 1 1 0 0 1 1 0 1 1 1 1 0 0 0 0 1 0 0
#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
##  9 11

e.g. Distribución normal

si \(X\) es una variable aletoria, con distribución normal de media 3, y du desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1 )
x
##   [1]  9.566156 10.642395 10.649264  8.899338 11.532713  8.717441  8.547940
##   [8]  9.236419 10.648322 10.529488 10.553332  8.740481 10.422242 10.923046
##  [15] 11.703583 10.061790  9.199557  8.013469  9.059224 11.110613 10.801739
##  [22] 10.841458  9.584213  9.687777  9.428005 11.857874 11.936446 10.216636
##  [29]  9.746268 10.375417 10.493190  9.895417 10.273967  9.989410  8.758028
##  [36]  9.307815 10.346238  9.251278  9.699638 11.922894  9.220912 10.677286
##  [43] 11.543255 12.268055  9.584199  9.887332 10.291636 10.479084  9.383245
##  [50] 11.147653 11.186022  9.353094 11.276093 10.803190  7.571037 10.426744
##  [57] 10.895704  9.161224 10.236885  9.777272 10.231993  9.639424 10.731191
##  [64]  8.635090 10.295600  9.767354  8.594228  9.351888  9.743763 10.206457
##  [71] 10.868836 10.735506 10.126853 11.135271  9.832761 11.332171  8.499138
##  [78]  9.812436  9.135167  7.183229  9.762290  9.280390  9.360213  9.399157
##  [85]  9.470825 10.416210  9.607257  9.718182 10.361066  9.181370  9.356864
##  [92]  8.979957  9.509105  9.805457 11.033275 10.283791 11.173490  8.564439
##  [99]  8.742773 11.828880
mean(x)
## [1] 10.00034
hist(x)

boxplot(x)

hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. Si \(Z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < Z < 4.78)\).

  2. Calcula el rango intercuartílico de una población normal estándar.

  3. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

  4. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?