Introducción a la probabilidad

Probabilidad es el lenguaje matematico para cuantificar la insertidumbre. Wasserman

  1. Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretación frecuentista de la probabilidad.
  3. La probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \}\] Un evento es un subconjunto del espacio muestreal, los eventos usualmente se denotan por mayusculas.

e.g. Que el primer lanzamiento resulte águila.

\[A=\{AA, AS\} \] ## Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Quimica hay 300 hombres y 700 mujeres, la propoción de hombres es:

\[ \frac{300}{700+300}= 0.3\] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el numero de resultados en A dividido entre el número total de posibles resultados:

\[P(A)= \frac{\#(A)}{\#(\Omega)} \] Por lo que falta contar

e.g. Combinaciones

Un comite de 5 personas sera seleccionado de un grupo de 6 hombes y 9 mujeres. Si la selección es aleatoria, ¿Cuál es la probabilidad de que el comité este conformada por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comites, cada uno tiene la misma posibilidades de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comites que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}}\] y la función para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602

Interpretacion frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciónes.

lanzamiento_10 <- sample(c("A","S"),10, replace = TRUE )
lanzamiento_10
##  [1] "S" "S" "A" "S" "S" "A" "S" "A" "S" "A"

Podemos calcular las secuencias de frecuencia relativas de águila:

cumsum(lanzamiento_10 == "A") # suma acumulada de águilas
##  [1] 0 0 1 1 1 2 2 3 3 4

Dividiendo

round(cumsum(lanzamiento_10 == "A") / 1:10, 2)
##  [1] 0.00 0.00 0.33 0.25 0.20 0.33 0.29 0.38 0.33 0.40

Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave alias. Las palabras clave para las distribuciones más importantes son:

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial

curve(dexp(x), from=0, to=0)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0
# Genera 20 observaciones con distribución B(1, 0.5)

Contando exitos vs fracasos

table(x)
## x
##  0  1 
## 16  4

e.g. Distribución normal

Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean= 10, sd=1 )
x
##   [1]  9.831736 11.087531  9.275978 10.951930 11.377253 11.195651  9.953722
##   [8] 11.518392 11.006049 10.712914  9.844943  9.671132 11.434459  9.345198
##  [15]  8.511373 10.121858  9.539513  8.764681  8.973353  9.776030 10.848852
##  [22]  9.315965 11.130845  9.596704 10.058305  8.906502  9.417132  9.779664
##  [29] 10.138076  9.024401 11.851126  9.205775  8.543820  9.934331  9.643587
##  [36]  9.786393  9.302483 10.902843 10.403056 12.831643 10.944640 10.008937
##  [43]  9.729065  9.207410  9.376648  9.126728  8.997075 10.331255  9.249621
##  [50]  9.309020  8.574413  9.411902  9.802085  9.509254  9.644463 11.612543
##  [57] 10.414700  9.790864  8.919027 11.168459  9.728770  8.213670 10.745184
##  [64] 11.021175  9.864708  9.894833 11.135982 10.986530  9.782964  9.393385
##  [71]  9.176761  6.852161  9.998626  9.605474  9.559207  8.781904 11.610240
##  [78] 11.019260 10.765939  9.392444 10.363999 10.895326  9.800190  8.531222
##  [85] 11.532551 10.872355  9.565911 10.316582  9.670978  9.962471  9.984870
##  [92]  9.194693 10.664260  9.342044  9.313867 11.619517 10.219925  9.845676
##  [99] 10.578109 12.168557
mean(x)
## [1] 10.00616
hist(x)

boxplot(x)

hist(x, freq = FALSE) #freq= FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from= 7, to= 13, add=TRUE)

  1. Si \(Z\) es una variable con distribución normal estandar, calcula \(P(-2.34 < Z < 4.78)\)
pnorm(4.78)
## [1] 0.9999991