Introducción a la probabilidad

Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. Wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretación frecuencista de la probabilidad.
  3. Probabilidad condicional y su relación con la incertidumbre.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces: \[\Omega =\{AA, AS, SA, SS\}\]

Un evento es el subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas. e.g. Que el primer lanzamiento resulte águila. \[\A={AA,AS\}\]

Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de la proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Química hay 300 hombres y 700 mujeres, la proporción de hombres es: \[\frac{300}{700+300} = 0.3 \]

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados: \[ P(A)=\frac{\#(A)}{\#(\Omega)}\]

Por lo que hace falta contar. e.g. Combinaciones Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres? Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene las mismas posibilidades de ser seleccionado. Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[\frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{3}}\] y la función para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602

Interpretación frecuencista de la probabilidad

Una frecuencia relativa es una proporcion que mide que tan seguido, o frecuente, ocrre una cosa u otra cosa en una sesion de observacion.

lanzamientos_10 <- sample(c("A", "S"),10, replace = TRUE )
lanzamientos_10
##  [1] "A" "A" "A" "S" "S" "A" "S" "A" "S" "A"

Podemos calcular las secuencias de frecuencias relativas de aguila:

cumsum(lanzamientos_10 == "A") # suma acumulada de aguila
##  [1] 1 2 3 3 3 4 4 5 5 6

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 1.00 1.00 1.00 0.75 0.60 0.67 0.57 0.62 0.56 0.60

Distribución de probabilidad

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

\[ \begin{array}{l|l|l|c} \text{Funcion} & \text{Uso} & \text{Observacion}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uno gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución Binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 1 1 0 1 1 0 1 1 1 0 1 1 1 0 0 1 0 1 0
#Genera 20 observaciones con distribución (1,0,5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
##  7 13

e.g. Distribución Normal Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

Para calcular el cuantil 0.7 de una v.a normal estandar Z, es decir, un valor x tal que

qnorm(0.7)
## [1] 0.5244005

Para calcular el mismo cuantil, pero para con v.a normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z\alpha\) que aparece en muchas de las formulas para intervalos y constrastes se obtiene con el comado qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964

Para generar una muestra de tamaño 100 de una poblacion normal de media 10 y desviacion tipica 1 (y guardarla en un vector x):

x <- rnorm(100, mean=10, sd=1)
x
##   [1] 12.358853 10.012487  8.603685 11.452332  8.943080 10.334589  9.380212
##   [8] 10.439805  8.734448  8.975721  9.569692  9.861078 10.514124 10.802764
##  [15] 10.799617  9.966819  9.878942 11.233142  8.453889 10.560091  9.494505
##  [22] 10.424529  9.133054  9.106510  8.820013  9.699734 11.256652 11.044178
##  [29] 10.058084 11.011573 10.198898  9.062155  8.554453  8.271525 11.120314
##  [36]  9.616997 12.055621  9.541331 10.653838 13.010318  8.847939  9.523172
##  [43]  8.130911  9.159977  7.990057 10.789292 11.269682 10.159414 10.069122
##  [50]  9.685287  9.101611 11.338164 10.840006  8.963197  9.603431 10.188125
##  [57]  9.463310 12.887365 10.456310 12.425598 10.854843  9.306782  9.407816
##  [64] 10.199321  9.454783 11.429687 11.015182  9.613625  8.780513  9.601294
##  [71] 12.183640 12.333866  8.979469  9.347016  9.332256  8.429899 10.373465
##  [78]  9.829131  9.022311 11.780566  8.614004  9.124325  9.539889 10.717789
##  [85] 10.097275 12.350574 10.573432  9.729573 10.757930 11.193173 10.443916
##  [92]  8.509265  9.389773  9.216686 10.293932  8.861486 10.522562  8.501533
##  [99]  9.914902  9.345031

Para estimar el promedio de x

mean(x)
## [1] 10.02874

Histograma de frecuencias

hist(x)

Grafico de cajas y bigote

boxplot(x)

Histograma de la muestra (normalizado para que la suma de las areas de los rectangulos sea 1) junto con la densidad de la poblacion.

hist(x, freq=FALSE) #Freq= FALSE, para que el area del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add= TRUE)

Ejercicios

  1. Si \(Z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < Z < 4.78)\).
p = (pnorm(4.78, mean = 0, sd = 1) - pnorm( -2.34, mean = 0, sd = 1))
p 
## [1] 0.9903573
  1. Calcula el rango intercuartílico de una poblacion normal estándar
poblacion <- c(1,1,4,4,5,5,6,6,6,6,7,8,8,9)
summary(poblacion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   4.250   6.000   5.429   6.750   9.000
  1. Genera una muestra de tamaño 10 de población normal estándar. ¿Cuál es la diferencia entre la media mustral y la poblacional? repite el ejercicio 3 veces y anota las 3 diferencias 1:
a <- rnorm(20, mean=5, sd=1)
a
##  [1] 4.328601 6.315463 4.879003 5.435498 3.680129 4.143131 5.516212 4.949903
##  [9] 5.230918 5.518177 4.975683 5.417959 5.870736 4.032449 6.877982 4.011191
## [17] 5.988396 4.223181 6.768566 5.163280

2:

b <- rnorm(20, mean=5, sd=1)
b
##  [1] 4.457575 4.825674 6.301158 4.700230 5.397025 5.361249 5.019391 3.841172
##  [9] 5.513722 4.602729 4.327185 4.224239 4.518008 5.492867 5.908627 4.614820
## [17] 4.880167 4.880001 5.019971 5.841367

3:

c <- rnorm(20, mean=5, sd=1)
c
##  [1] 3.233170 5.128139 5.907848 6.217869 2.288534 5.551221 6.573045 6.730225
##  [9] 4.534812 4.450312 5.076258 6.247317 3.969226 4.645712 4.392460 4.488513
## [17] 5.906741 5.570289 4.820278 4.873825
  1. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los numeros obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
poi <- rpois(1000, 1) 
poi
##    [1] 2 2 0 1 2 0 0 0 0 0 1 1 0 1 2 3 1 0 2 0 0 1 1 1 0 2 0 3 1 1 1 1 2 2 1 0 1
##   [38] 2 0 2 0 2 0 1 2 1 3 2 3 3 1 3 0 1 1 0 0 2 1 2 0 2 1 1 1 0 2 0 1 1 0 0 0 0
##   [75] 0 0 1 3 0 0 1 1 1 1 0 2 1 1 0 1 1 1 1 0 2 1 0 1 0 1 1 2 2 1 0 1 0 1 2 0 0
##  [112] 2 0 0 1 0 1 1 0 1 1 1 1 0 0 0 2 2 0 1 0 2 1 2 0 0 0 0 1 0 1 1 1 1 1 1 1 1
##  [149] 1 1 1 1 0 1 1 0 0 1 0 1 1 3 1 1 1 1 1 1 4 1 1 1 0 1 4 0 0 1 0 1 1 1 0 0 0
##  [186] 1 0 3 2 2 0 3 0 2 0 2 0 1 0 1 4 1 1 1 1 0 1 0 1 0 0 0 1 1 1 0 2 0 1 0 1 3
##  [223] 0 0 0 1 0 2 3 3 0 1 0 1 0 2 0 0 0 1 1 2 1 2 0 0 4 2 1 2 0 6 2 2 2 1 2 1 2
##  [260] 2 1 1 0 0 1 0 1 3 1 0 0 2 3 1 0 0 0 1 0 1 1 1 1 0 1 2 1 0 2 1 1 0 1 1 1 3
##  [297] 1 2 2 1 2 1 1 1 0 0 1 2 2 2 1 2 0 0 1 0 2 1 1 1 0 0 2 0 0 1 2 1 0 0 0 1 2
##  [334] 1 2 0 1 2 0 2 0 0 1 1 2 1 2 2 2 0 1 1 1 0 1 1 1 1 0 1 1 1 1 0 0 2 1 1 1 1
##  [371] 3 1 1 0 2 1 4 1 1 0 2 0 2 1 2 2 0 0 1 1 1 1 2 0 0 1 1 0 0 0 1 0 2 1 1 0 1
##  [408] 2 1 0 0 0 1 0 0 1 1 1 0 1 2 3 2 0 0 2 0 1 1 1 2 1 1 0 2 1 0 0 2 0 2 1 1 0
##  [445] 0 2 1 0 2 0 3 0 0 1 0 2 0 1 1 2 2 2 2 1 1 0 0 1 0 1 1 0 0 1 3 1 0 1 3 3 0
##  [482] 1 2 1 2 0 0 0 2 0 2 0 0 0 2 1 1 1 3 1 1 0 0 3 3 1 3 0 0 0 0 1 1 1 1 1 2 1
##  [519] 0 0 0 1 0 2 1 2 1 0 1 1 0 0 3 1 2 0 0 1 1 1 1 1 0 1 1 0 1 1 0 0 0 2 1 1 0
##  [556] 0 0 2 3 0 0 1 1 0 0 2 1 1 1 0 0 1 1 2 2 1 1 2 1 0 1 1 2 2 0 0 3 1 3 1 0 0
##  [593] 1 1 0 1 1 0 1 1 2 0 1 1 1 1 2 0 2 2 1 1 4 0 0 2 2 0 0 0 1 0 0 0 0 1 1 0 1
##  [630] 0 1 1 1 1 0 3 1 1 1 1 1 1 1 0 2 0 1 1 2 2 0 1 1 0 0 3 0 1 1 2 2 1 1 0 1 1
##  [667] 0 0 1 0 0 1 0 0 1 1 1 1 2 2 0 1 0 0 2 2 0 1 0 2 1 0 1 1 1 1 0 1 1 2 1 1 0
##  [704] 1 0 2 1 3 0 0 0 0 2 1 2 0 1 0 1 3 0 0 0 1 0 0 4 1 1 1 0 2 2 2 0 1 1 2 0 2
##  [741] 1 1 0 1 0 1 0 1 1 1 0 4 1 0 0 1 1 1 0 0 4 1 0 0 0 0 0 0 1 2 2 1 1 0 1 1 1
##  [778] 0 1 1 1 0 2 0 3 1 0 2 0 0 0 2 0 0 0 1 4 1 0 2 1 3 1 2 0 2 1 0 1 0 2 1 1 0
##  [815] 1 1 2 0 1 2 0 1 1 2 2 0 1 0 1 0 0 0 0 0 1 1 4 1 2 1 1 1 1 2 1 0 1 1 1 0 0
##  [852] 1 2 2 0 2 1 2 2 0 0 3 1 2 0 1 4 1 3 0 0 1 0 2 4 2 1 0 0 0 2 0 3 1 1 3 0 1
##  [889] 1 0 1 2 1 1 1 1 1 1 1 1 1 2 2 2 2 1 0 3 0 1 1 1 4 0 1 1 0 1 1 1 2 0 0 0 1
##  [926] 2 1 1 0 1 0 1 2 1 3 1 1 0 0 2 0 2 1 3 2 0 1 0 1 2 3 1 0 1 1 1 1 0 0 3 3 1
##  [963] 1 1 1 1 0 1 1 1 1 0 0 1 1 0 0 2 0 0 1 0 1 0 0 0 0 2 0 1 1 1 1 0 0 2 2 0 1
## [1000] 0

Media:

mean(poi)
## [1] 0.963

Varianza:

var(poi)
## [1] 0.8504815

Histograma:

hist(poi, xlab = "Distribucion de Poisson", main = paste("Histograma de Poisson"))

5.Calcula con R los siguientes valores: \(t_{3,\alpha}\), \(\chi^2_{3,\alpha}\), para \(\alpha = 0.05\) y \(alpha = 0.01\). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.