Introducción a la probabilidad

“Probabilidad es el lenguaje matemático para cuantificar incertidumbre.” -Wasserman

Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuentista de probabilidad.
Probabilidad condicional y su relación con independencia.
La regla de Bayes.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio. Ejemplo: Si lanzamos una moneda dos veces entonces: \[ \Omega = \{AA,AS,SA,SS\} \]

Escribe el espacio muestral de los siguientes experimentos aleatorios:

El número de lanzamientos de un dado hasta que obtienes un 6.
Tu calificación final en el curso.
El tiempo en minutos hasta tu próximo estornudo.
El peso de una lata de Coca-Cola (incluyendo el líquido).

Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.

El evento: que el primer lanzamiento resulte águila es \[ A = \{AA,AS\} \]

Eventos Equiprobables La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo. Si en la carreta de química tenemos: * 300 estudiantes hombres * 700 estudiantes mujeres

La proporción de hombres es: \[ \frac{300}{700+300}=0.3\ \]

Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.

En el ejemplo hay un supuesto implícito en elegir al azar (o aleatoria mente), en este caso estamos suponiendo que todos los estudiantes tienen la misma probabilidad de ser elegidos, que nos lleva al siguiente concepto:

Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)}=0.3\ \]

Por lo que solo hace falta contar.

e.g. La probabilidad de obtener AA si lanzamos una moneda 2 veces es de 1/4 que también es 0.25 ó 25%, y la probabilidad del evento que el primer lanzamiento resulte águila es de 2/4 = 0.5 ó 50%

Si lanzamos dos dados y sumamos los números obtenidos *¿Cuál es la probabilidad de que la suma de los números sea 5?
¿Cuál es la probabilidad de que el segundo número sea mayor que el primero?
Repite las preguntas anteriores cuando lanzas 2 dados de 8 caras.

Ejemplo: combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3}\)\(\dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[\frac{\dbinom{6}{3}\dbinom{9}{2}}{\dbinom{15}{5}}\]

la función para calcular las combinaciones en R (random) es choose(n, r)

choose (6, 3) * choose(9, 2) / choose (15, 5)

## [1] 0.2397602

Interpretación frecuentista de probabilidad

Las probabilidades se entienden como una aproximación matemática de frecuencias relativas cuando la frecuencia total tiende a infinito.

supongamos que lanzamos una moneda 10 veces y obtenemos:

lanzamientos_10 <- sample(c('A', 'S'),10, replace=TRUE)

# para calcular la secuencia de frecuencias relativas de águila

cumsum(lanzamientos_10 == 'A')# suma acumulada de águilas

##  [1] 0 1 1 1 1 1 2 3 3 4

round(cumsum(lanzamientos_10 == 'A') / 1:10, 2 )

##  [1] 0.00 0.50 0.33 0.25 0.20 0.17 0.29 0.38 0.33 0.40

Funciones de distribuciones de probabilidad

\[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

Distribución exponencial

curve(dexp(x), from=0, to=10 )

#Ejemplo de una gráfica exponencial

Distribución binomial

La distribución binomial compara éxitos vs fracasos

#Asignación de un alias que contenga 20 observaciones binomiales aleatorias
x <- rbinom(20, 1, 0.5)
x

##  [1] 0 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 1 0

# Hace la generación de 20 observaciones con distribución B(1,0.5)

Éxitos vs fracasos

Generación de una tabla de conteo de éxitos vs fracasos

table(x)

## x
##  0  1 
## 14  6

Ejemplo de distribución normal

En esta distribución en la parte horizontal de la tabla se expresa el valor, y en la parte vertical se expresa la probabilidad de manera porcentual, entre mas cerca de la media la probabilidad es mas frecuente o alta.

si \(x\) es una variable aleatoria, con la distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)

## [1] 0.8413447

Para calcular el cuantil 0.7 de una v.a. normal estándar z, es decir, un valor Z tal que

qnorm(0.7)

## [1] 0.5244005

Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)

## [1] 0.2622003

El valor \(\ ( z_\alpha\ )\) se obtiene con el comando qnorm(1-alfa). Ejemplo:

qnorm(0.975)

## [1] 1.959964

Para generar una muestra de tamaño 100 con una población media de 10 y una desviación estandar de 1 se hace así (Se guardara en un vector x).

x <- rnorm(100, mean=10, sd=1)
x

##   [1]  9.573622 10.664181 10.199668 10.774175 10.496571  8.922302 11.386736
##   [8] 10.588120 10.623802  9.016969 10.698325  9.941031  9.990776  9.888644
##  [15] 11.241632  9.164015 10.024626 10.900809  8.695008  8.425685 10.152768
##  [22] 11.883919 10.938586 10.635729  9.224048  9.631914  9.870435  9.311326
##  [29] 10.466917 11.800974 10.818464  9.968549 10.511438  9.454991 11.746641
##  [36]  9.456922  9.586636 10.972436 10.011466 10.096008  8.601160  9.789092
##  [43] 10.319741  9.025092  9.078057 11.546173  9.478202 10.285007 11.030483
##  [50]  8.554480  8.702707  8.206740  8.943317 10.758505 10.800412  7.926138
##  [57] 12.459338 10.808069 10.272150  9.831140  8.995746  9.423493  9.561755
##  [64] 11.543161  9.669990 10.388020 10.267054 10.573124  8.303665 10.693671
##  [71] 10.041177 10.596325 11.386165 11.561748  8.997529 10.957440  9.308870
##  [78]  8.102294  9.405788  9.700294 10.047110 10.455938  9.169599 12.177273
##  [85]  8.581966  9.439100 10.158537  7.841258 10.618488 10.406385 10.858494
##  [92]  9.708821 10.671394  9.338431  8.862485 10.817424  9.789768 11.328988
##  [99] 12.415280 10.771961

Estimación del promedio

mean(x)

## [1] 10.07109

Generación de un Histograma de frecuencia

hist(x)

Generación de gráfico de cajas y bigote

boxplot(x)

Representación de histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos) sea 1 junto con la densidad de la población:

# x es un vector lineal con 6 numero aleatorios
hist(x, freq = FALSE) # Freq=FALSE, esta asi para que el area del histograma sea 1, de esta manera sep podrá dibujar una curva
curve(dnorm(x, mean = 10, sd=1), from=7, to =13,add = TRUE)