Introducción a la probabilidad

“Probabilidad es el lenguaje matemático para cuantificar la incertidumbre.” -Wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidas, etc.

  2. Interpretación frecuentista de probabilidad.

  3. Probabilidad condicional y su relación con independencia.

  4. La regla de Bayes.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.

Ejemplo: si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS \} \] Escribe el espacio muestral de los siguientes experimentos aleatorios:

\[\Omega = \{1,2,3\}\]

\[\Omega = \{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 \}\]

\[\Omega = \{ 1, 2, 3, 4, 5, 6, 7, 8, 9 ,10\}\]

\[\Omega = \{355, 358, 371, 382\}\]

Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.

El evento: que el primer lanzamiento resulte águila es

\[ A = \{AA, AS\} \]

Eventos Equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo. Si en la carrera de química tenemos:

la proporción de hombres es:

\[ \frac{300}{700+300}=0.3\ \] Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.

En el ejemplo hay un supuesto implícito en elegir al azar (o aleatoriamente), en este caso estamos suponiendo que todos los estudiantes tienen la misma probabilidad de ser elegidos, que nos lleva al siguiente concepto:

Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A) = \frac{\#(A)}{\#(\Omega)} \]

Por lo que solo hace falta contar.

e.g. La probabilidad de obtener AA si lanzamos una moneda 2 veces es de 1/4 que tambien es 0.25 o 25%, y la probabilidad del evento que el primer lanzamiento resulte aguila es de 2/4 = 0.5 o 50%

\[\Omega = \{(1+1),(1+2),(1+3), (1+4),(1+5),(1+6),(2+1),(2+2),(2+3),(2+4), (2+5),(2+6),(3+1),(3+2),(3+3),(3+4),(3+5),(3+6),(4+1),(4+2),(4+3),(4+4),(4+5),(4+6),(5+1),(5+2),(5+3),(5+4),(5+5),(5+6),(6+1),(6+2),(6+3),(6+4),(6+5),(6+6)\}\]

\[ A = \{(1+4) ,(2+3), (4+1), (3+2)\} \]

\[P(A)= \frac{4}{36}=0.11\ \]

\[ A = \{(1+2),(1+3), (1+4),(1+5),(1+6),(2+3),(2+4), (2+5),(2+6),(3+4),(3+5),(4+5),(4+6),(5+5),(5+6)\} \]

\[P(A)= \frac{15}{36}=0.41\ \]

\[\Omega = \{(1+1),(1+2),(1+3), (1+4),(1+5),(1+6),(1+7),(1+8),(2+1),(2+2),(2+3),(2+4), (2+5),(2+6),(2+7),(2+8),(3+1),(3+2),(3+3),(3+4),(3+5),(3+6),(3+7),(3+8),(4+1),(4+2),(4+3),(4+4),(4+5),(4+6),(4+7),(4+8),(5+1),(5+2),(5+3),(5+4),(5+5),(5+6),(5+7),(5+8),(6+1),(6+2),(6+3),(6+4),(6+5),(6+6),(6+7),(6+8),(7+1),(7+2),(7+3),(7+4),(7+5),(7+6),(7+7),(7+8),(8+1),(8+2),(8+3),(8+4),(8+5),(8+6),(8+7),(8+8),\}\]

\[ A = \{(1+4) ,(2+3), (4+1), (3+2)\} \]

\[P(A)= \frac{4}{64}=0.0625\ \]

\[ A = \{(1+2),(1+3), (1+4),(1+5),(1+6),(1+7),(1+8),(2+3),(2+4),(2+5),(2+6),(2+7),(2+8),(3+4),(3+5),(3+6),(3+7),(3+8),(4+5),(4+6),(4+7),(4+8),(5+6),(5+7),(5+8),(6+7),(6+8),(7+8)\} \]

\[P(A)= \frac{28}{64}=0.4375\ \]

Ejemplo: combinaciones

Un commité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3}\) \(\dbinom{9}{2}\) posibles comites que incluyen 3 hombres y 2 mujeres, por lo tanto la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]

La funcion para calular las combinaciones en R (random) es choose (n,r)

choose(6, 3) * choose (9, 2) / choose (15, 5)

Interpretacion frecuentista de probabilidad

Las probabilidades se entienden como una aproximacion matematica de frecuencias relativas cuando la frecuencia total tiende a infinito.

supongamos que lanzamos una moneda 10 veces y obtenemos:

lanzamientos_10 <- sample (c(“A”, “S”), 10, replace=TRUE)

para calcular la secuencia de frecuencias relativas de aguila

cumsum(lanzamientos_10 == “A”) suma acumulada de aguila

round(cumsum(lanzamientos_10 == “A”) / 1:10, 2 )

Distribuciones de probabilidad

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribucion exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de 1 entre 0 y 10 

Distribucion binomial

x<- rbinom (20, 1, 0.5)
x
##  [1] 1 0 0 0 1 1 1 1 0 0 1 1 1 0 1 0 0 0 0 1
#genera 20 numeros con distribucion B(1,0.5)

Contando exitos vs fracasos

table (x)
## x
##  0  1 
## 10 10

e.g. Distribucion normal

si \(x\) es una variable aleatoria con distribucion normal de media 3 y su desviacion tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x<- rnorm(100, mean=10, sd=1)
x
##   [1] 11.509142  9.648622 11.134366  9.195690  9.357746  8.354351  9.294484
##   [8] 10.450746 10.360428 10.238035  8.258650 11.495465  8.696587  9.586792
##  [15] 10.211450  9.226753  9.714598  9.879137  9.526659 10.455230 10.657740
##  [22] 11.823900 10.157458  9.658781  9.156343  9.800052  8.018820  9.087151
##  [29]  9.369732 11.925883  9.989171 10.065653  8.894275 10.706432  8.613495
##  [36] 10.243660  8.502135 11.159169 11.385412  9.333603  8.190122  7.959728
##  [43] 10.473927 10.528731  9.525617  9.283577  9.860458 10.121868  8.278370
##  [50] 12.308838 10.157803 10.031316  8.326266 10.338011  9.715259  8.769718
##  [57]  8.905336 11.169585  8.394708 10.631284  9.973229 11.569656 10.901569
##  [64]  9.487122  9.800016  9.416135 11.244933  9.205338  9.097176 11.391341
##  [71]  9.872674  9.336723  9.533335 10.631141 10.405476  9.869130  8.198538
##  [78]  9.981292  9.718657 10.599445 10.371831 11.499142  9.742314  9.518633
##  [85] 10.994276 10.348233 10.392829  9.551915  9.576310  9.698938  8.804005
##  [92] 11.039816  9.425333 10.306818 10.512940  8.945200  9.869853  8.802261
##  [99]  9.414948  9.651638
mean(x)
## [1] 9.868145
hist(x)

boxplot(x)

hist(x, freq = FALSE) #freq=false, para que el area del histograma sea 1
curve(dnorm(x,mean=10, sd=1), from = 7, to=13, add=TRUE)

Ejercicios U2A6

  1. Si \(Z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < Z < 4.78)\).
pnorm(-2.34)
## [1] 0.00964187
pnorm(4.78)
## [1] 0.9999991
pnorm(4.78) - pnorm(-2.34)
## [1] 0.9903573
  1. Calcula el rango intercuartílico de una población normal estándar.
valores <-rnorm(8)
IQR(valores)
## [1] 1.096418
  1. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
a<- rnorm(10)
mean(a)
## [1] -0.0529337
b<- rnorm(10)
mean(b)
## [1] -0.1711764
c<- rnorm(10)
mean(c)
## [1] -0.2655815

La diferencia las tres veces es muy pequeña, considerando que la media poblacional es de 0, esto es porque existe una desviacion de 1.

  1. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
datos<- rpois(1000,1)
datos
##    [1] 2 0 3 2 0 1 0 0 0 0 1 1 3 0 0 0 1 0 0 0 0 2 1 1 0 1 1 1 2 0 0 0 1 0 0 2 0
##   [38] 0 0 0 1 1 0 1 1 2 2 0 1 0 0 0 0 0 2 0 2 0 1 0 0 0 0 1 0 0 0 1 0 0 1 0 4 1
##   [75] 1 0 0 2 2 0 2 2 1 1 0 1 1 2 2 1 2 2 2 1 0 1 1 1 1 0 1 2 0 0 0 2 2 1 0 3 1
##  [112] 1 3 2 2 2 3 2 1 0 0 0 3 0 1 1 0 1 1 0 0 0 2 1 0 0 3 0 1 1 1 2 1 1 1 0 1 1
##  [149] 2 0 2 0 1 1 1 1 2 1 1 1 0 1 2 1 0 2 3 2 1 3 0 1 2 2 0 0 0 2 0 2 1 1 3 2 1
##  [186] 1 1 0 1 1 0 3 1 0 0 0 0 0 3 0 1 2 1 0 1 0 0 0 3 1 2 2 0 1 0 0 0 2 0 1 1 1
##  [223] 2 4 1 3 1 3 2 1 0 0 2 3 1 0 0 3 1 2 0 2 3 2 0 1 1 0 0 0 1 0 0 3 1 1 0 0 1
##  [260] 1 3 0 0 2 0 3 0 1 0 2 0 0 0 0 1 0 2 1 0 4 3 1 1 1 1 0 0 0 1 2 1 3 2 2 3 1
##  [297] 3 1 0 3 1 1 0 1 0 2 1 0 1 1 2 1 0 0 2 0 0 0 1 1 2 1 0 2 3 1 0 0 1 1 2 2 0
##  [334] 0 2 1 0 1 0 4 0 1 1 1 0 2 0 0 3 0 0 0 0 1 0 0 1 1 1 2 1 0 3 0 0 2 2 2 0 1
##  [371] 2 1 0 1 0 0 0 2 2 0 2 2 0 1 1 3 0 1 0 1 1 1 1 3 1 0 1 1 1 1 2 0 0 0 0 1 0
##  [408] 2 2 1 1 0 1 1 0 0 1 0 1 1 0 0 1 1 1 1 1 0 1 1 1 0 1 2 0 0 3 1 1 0 1 0 0 0
##  [445] 1 2 0 2 1 0 1 0 0 1 1 4 1 1 0 2 1 0 1 1 1 0 1 1 0 1 1 1 0 0 2 0 4 0 3 2 0
##  [482] 1 2 1 1 1 1 1 2 0 1 1 2 3 2 1 1 3 1 2 3 2 1 0 0 2 0 1 0 1 0 0 0 2 0 1 0 1
##  [519] 1 1 2 0 1 1 1 1 2 0 2 0 1 0 0 0 0 0 0 1 1 0 1 0 2 2 3 0 0 0 0 0 1 1 1 0 2
##  [556] 1 0 0 2 3 1 0 2 1 0 3 0 0 1 0 2 3 3 0 1 1 2 1 1 1 1 0 1 0 3 2 1 1 2 2 1 1
##  [593] 0 3 0 3 1 1 0 0 1 2 0 0 1 1 1 0 0 0 1 0 2 0 2 1 0 2 2 0 1 0 0 0 2 1 0 1 0
##  [630] 0 0 2 0 1 2 0 2 0 0 0 2 0 0 0 0 2 0 4 0 1 1 2 2 1 0 1 0 1 0 0 4 0 2 0 1 4
##  [667] 2 1 1 1 1 1 0 0 1 1 4 2 1 0 1 3 0 0 2 0 1 1 0 1 3 1 1 3 1 1 3 0 1 1 1 0 0
##  [704] 1 2 1 2 0 1 2 0 4 0 1 1 2 1 2 0 0 0 3 2 0 2 0 3 1 0 0 0 0 2 0 1 1 1 1 1 2
##  [741] 0 2 1 0 3 0 1 0 1 0 0 0 3 1 1 1 1 0 1 1 2 1 1 0 2 1 0 1 0 1 1 1 1 3 1 1 1
##  [778] 2 2 3 0 1 1 1 1 3 1 1 1 3 2 0 1 0 3 0 0 4 0 0 1 1 3 1 2 3 2 2 1 1 2 1 2 0
##  [815] 0 0 0 1 1 0 2 1 1 1 0 0 2 0 1 1 1 0 0 2 2 1 1 0 0 1 1 1 2 0 1 0 0 0 0 2 0
##  [852] 1 2 2 2 1 0 0 3 0 1 2 1 1 1 1 0 2 1 2 1 1 0 4 0 0 0 1 1 0 0 0 1 3 0 1 1 2
##  [889] 2 1 0 3 4 1 4 0 2 0 3 0 0 0 3 1 2 0 2 0 1 0 1 0 0 3 2 1 2 0 1 2 0 0 0 1 0
##  [926] 2 0 1 1 0 1 0 0 0 0 2 2 1 1 1 0 0 1 1 0 0 3 0 3 2 1 0 0 0 3 0 2 2 1 1 4 1
##  [963] 1 3 0 0 0 2 2 0 0 1 0 0 1 1 3 1 3 0 0 0 0 1 0 2 0 0 0 3 0 1 0 1 1 1 0 2 2
## [1000] 1
mean(datos)
## [1] 0.98
var(datos)
## [1] 0.9845846
hist(datos)

No se parecen a los valores teoricos