Introducción a la probabilidad

Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. Wasserman

  1. Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretación frecuentista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de reslutados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[ A = \{AA, AS\} \] ## Eventos Equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. quimica hay 300 hombres y 700 mujeres, la proporción de hombres es:

\[ \frac{300}{700+300}=0.3 \]

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A) = \frac{\#(A)}{\#(\Omega)} \]

Por lo que hace falta contar

e.g. Combinaciones

Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria. ¿Cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose(n, r)

choose (6, 3) * choose(9, 2) / choose (15, 5)
## [1] 0.2397602

Interpretación frecuentista de probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

Lanzamientos_10 <- sample(c("A", "S"),10, replace = TRUE) 
Lanzamientos_10
##  [1] "A" "S" "S" "S" "A" "S" "S" "A" "A" "S"

Podemos calcular las secuencia de frecuencias relativas de águila:

cumsum(Lanzamientos_10 == "A") # suma acumulada de águilas
##  [1] 1 1 1 1 2 2 2 3 4 4

Dividiendo

round(cumsum(Lanzamientos_10 == "A") / 1:10, 2 )
##  [1] 1.00 0.50 0.33 0.25 0.40 0.33 0.29 0.38 0.44 0.40

##Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

Distribución Alias Distribución normal norm Distribución binomial binom Distribución exponencial exp Distribución t de student t Distribución chi cuadrada chisq *Distribución F F

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 1 0 1 1 0 1 0 0 1 1 1 1 0 0 0 0 1 0 1
#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
##  9 11

e.g. Distribución normal

si \(x\) es una variable aletoria, con distribución normal de media 3, y du desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

*Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que

qnorm(0.7)
## [1] 0.5244005

*Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964

*Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):

x <- rnorm(100, mean=10, sd=1 )
x
##   [1]  9.930210  9.119067 11.202687  9.877420  9.391222  9.873425 10.917935
##   [8]  9.302447 10.758985 11.227553 10.103514  9.696525  9.211451 10.241176
##  [15] 10.380760  9.918061 11.045009 12.443330 10.530600 10.361420  9.100186
##  [22]  8.856704  8.919279 10.308380  9.769344 10.352916  9.521390  9.739387
##  [29]  6.966942  9.990104  9.932210  9.805884 11.693886 10.325122 10.644736
##  [36]  9.929654  9.833715  9.810842  9.793013 10.302444 10.608098  9.655781
##  [43]  9.396344  9.892295  9.667519 10.360660  9.595031 10.925130  9.998578
##  [50]  8.168624  9.366496  9.776198 10.162290  9.404064 11.671633 10.722334
##  [57] 10.942153 10.574703  8.519978 10.662850  8.504651 10.325131  9.627322
##  [64] 11.182190  9.930273 10.940126  9.203936  8.583303 12.132377 10.143692
##  [71]  7.266415 10.357656 10.222540 10.471388  8.985103 12.061721 10.485572
##  [78]  9.313591  8.808962  8.479907  9.381909 11.568826 10.540071 10.291993
##  [85]  8.543889  9.224435 11.631266 11.686806 10.197718  9.688987  9.983763
##  [92] 10.265743  9.343950  9.061363 11.100403  8.004412  9.098339 10.282144
##  [99] 10.078459  9.833285

*Para estimar el promedio de x

mean(x)
## [1] 9.980333

*Histograma de frecuencias

hist(x)

*Gráfico de cajas y bigote

boxplot(x)

  1. junto con la densidad de la población:
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. Si \(z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < Z < 4.78)\).
P <- pnorm(4.78)-pnorm(-2.34)
P
## [1] 0.9903573

\[ P= .9903573\]

  1. Calcula el rango intercuartílico de una población normal estándar.
x <- rnorm(15, sd=1 )
x
##  [1]  0.5904276  0.3553006  0.2295069  1.1491525  1.4409910  0.7289453
##  [7]  1.3452879 -0.2029565  0.6285149 -0.4678082 -0.2927269  0.2254415
## [13] -1.4263571 -0.5092413  2.4066800
summary(x)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -1.4264 -0.2478  0.3553  0.4134  0.9390  2.4067

\[ IQR= 3erQ - 1erQ\] entonces IQR es igual a:

IQR(x)
## [1] 1.186891
  1. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
a <- rnorm(10, sd=1 )
a
##  [1] -0.555191800  0.424707243 -0.688519593  0.988517171 -0.234819469
##  [6]  0.337254058  0.869868461 -0.007358923  0.011906299  0.006616028
b <- rnorm(10, sd=1 )
b
##  [1] -0.82670679 -1.58428109 -0.66114270  0.10997829 -0.26502905 -1.56172847
##  [7]  0.70184645  0.50123131 -0.41662709  0.08873995
c <- rnorm(10, sd=1 )
c
##  [1] -2.19642948  0.69569086  0.68667351  1.10394310 -2.36770551  0.95303004
##  [7]  0.23264429 -0.05090779 -0.36185965 -0.16551605

Las unicas diferencias entre estas 3 muestras seria que los 10 valores son distintos, mientras que la media y la desviacion son las mismas. La diferencia entre la media poblacional y la media muestral es que la media poblacional es toda la totalidad de los datos para realizar la estimación, mientras que la media muestra se basa en una muestra significativa de esa población.

  1. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\) Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
pois <- rpois(1000, 1) 
pois
##    [1] 0 0 2 0 1 1 2 2 2 1 1 1 4 1 2 1 1 2 4 0 2 1 1 0 0 0 0 0 1 1 0 2 1 2 0 0 1
##   [38] 1 1 0 0 1 1 3 2 1 2 2 0 0 2 0 1 1 2 1 3 0 2 0 1 2 2 1 1 0 4 2 0 1 1 1 1 1
##   [75] 2 2 2 2 2 0 1 0 3 0 0 0 3 1 0 1 1 1 1 1 3 2 0 0 0 2 0 1 0 0 0 0 0 2 1 0 2
##  [112] 1 2 2 0 1 2 0 2 0 0 0 0 1 2 0 1 0 1 0 0 2 1 0 3 2 0 1 2 2 4 1 2 2 0 3 0 2
##  [149] 0 2 0 2 0 1 1 1 0 1 0 0 0 0 0 1 0 0 1 2 0 1 0 0 1 1 2 2 5 0 2 0 0 0 0 2 3
##  [186] 0 1 0 1 0 1 1 2 0 3 1 1 0 1 6 1 0 2 0 1 2 1 3 1 1 1 1 0 3 0 0 3 0 1 2 1 1
##  [223] 2 2 0 1 2 2 1 1 1 3 2 2 1 0 1 0 3 2 4 0 0 0 0 1 1 2 0 3 1 0 1 0 0 1 3 1 0
##  [260] 0 0 1 0 0 1 1 2 0 2 0 0 0 4 1 2 0 2 0 2 2 1 0 0 2 3 2 2 0 1 2 1 0 0 2 1 0
##  [297] 2 1 1 2 4 2 0 2 0 0 1 2 2 1 0 3 0 2 0 1 1 0 1 1 1 2 2 0 0 2 1 0 0 0 0 1 1
##  [334] 1 2 2 0 1 0 0 2 0 2 0 4 2 0 1 1 0 3 3 1 0 1 2 1 0 0 2 0 1 1 0 1 1 0 2 2 0
##  [371] 0 1 1 2 1 3 0 0 0 2 1 0 1 2 3 1 2 1 0 2 0 1 0 2 1 0 0 2 0 1 1 1 0 1 1 1 4
##  [408] 0 2 0 0 3 0 1 1 0 0 2 0 0 0 0 3 0 0 0 1 0 2 0 2 2 0 1 2 2 1 0 2 1 0 0 1 2
##  [445] 0 2 1 0 0 0 0 2 3 2 0 0 0 0 1 1 0 3 3 5 1 1 1 2 1 1 0 0 0 2 1 1 0 4 2 1 0
##  [482] 1 2 1 2 1 1 0 1 3 0 0 0 1 1 1 2 1 1 2 2 0 1 0 0 1 1 0 0 2 1 0 1 1 1 1 2 2
##  [519] 1 0 1 2 1 3 0 0 1 3 1 1 3 2 1 1 0 2 2 0 0 0 2 1 1 0 0 1 1 2 2 1 3 3 0 0 1
##  [556] 2 0 0 0 1 2 1 2 0 2 2 1 1 1 1 0 1 3 0 3 3 3 1 1 1 3 0 1 0 0 1 1 2 1 1 1 0
##  [593] 1 1 0 1 0 1 1 0 1 1 2 2 3 1 2 1 0 1 1 0 1 1 1 1 3 3 0 0 2 0 0 0 0 2 2 1 1
##  [630] 2 3 1 0 3 0 0 1 2 0 3 2 1 1 0 1 0 1 1 2 0 2 2 3 1 2 2 0 0 0 1 1 0 1 1 2 2
##  [667] 2 0 3 1 2 1 1 0 1 2 1 1 1 0 0 0 0 2 0 1 0 0 2 1 1 0 1 1 1 2 1 1 0 3 0 2 0
##  [704] 1 1 0 1 1 1 1 2 2 0 2 3 0 0 0 0 0 1 1 1 0 3 0 1 1 1 2 1 2 0 0 0 0 1 0 0 0
##  [741] 2 2 1 2 2 0 1 1 3 0 0 0 0 3 1 1 0 1 0 0 0 0 0 0 1 2 1 0 1 0 1 1 0 1 0 2 0
##  [778] 1 0 0 0 1 1 1 1 2 1 0 1 1 1 3 0 2 1 0 2 0 0 0 1 0 0 1 0 0 0 0 3 0 0 1 1 0
##  [815] 0 1 0 4 1 1 1 0 2 0 2 1 2 1 0 1 4 2 1 1 1 2 1 0 1 2 1 2 1 1 1 0 0 0 0 1 3
##  [852] 2 1 0 0 2 3 0 0 1 1 1 2 2 3 2 2 2 3 2 0 2 1 0 0 4 0 0 0 1 0 0 0 1 1 1 1 1
##  [889] 2 1 1 2 2 2 0 2 2 1 0 1 1 2 1 4 0 2 1 1 1 0 0 1 1 1 1 2 1 0 0 2 2 1 0 1 3
##  [926] 1 2 0 0 2 0 2 0 3 0 2 2 2 1 0 0 1 1 1 1 1 0 0 0 0 1 1 2 1 0 1 0 3 1 1 0 0
##  [963] 0 4 0 2 1 2 0 2 1 1 1 0 1 1 1 0 1 0 0 1 0 0 0 1 1 0 2 2 2 0 1 0 2 0 0 1 2
## [1000] 2
hist(pois)

mean(pois)
## [1] 1.029
var(pois)
## [1] 1.003162

No se parecen a los datos teóricos