u1a5

Martha Castro

13/2/2021

Introducción a la probabilidad

Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. -Wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretación frecuentista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonoces:

\[\Omega= \{AA, AS, SA, SS \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[ A=\{AA, AS\} \] ##Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Química hay 300 Hombres y 700 Mujeres, la proporción de hombres es: \[\frac{300}{700+300}=0.3 \] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si l selección es aleatoria, ¿Cuál es la probabilidad de que el coté este conformado por hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}} {\dbinom{15}{5}} \] y la función para calcular las conbinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose (15, 5)
## [1] 0.2397602

##Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <-sample(c("A","S"),10,replace=TRUE )
lanzamientos_10
##  [1] "S" "A" "A" "A" "S" "S" "S" "S" "A" "A"

Podemos calcular las secuencia de frecuencia reltivas de águila:

cumsum(lanzamientos_10 == "A") # suma acumulada de águilas
##  [1] 0 1 2 3 3 3 3 3 4 5

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 0.00 0.50 0.67 0.75 0.60 0.50 0.43 0.38 0.44 0.50

##Distribuciones de propabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alas. Las palabras clave para las distribuciones más importantes son:

  • Distribución Alias
  • Distribución binomial binom
  • Distribución de Poisson pois
  • Distribución normal norm
  • Distribución exponencial exp
  • Distribución t de student t
  • Distribución Chi2 chisq
  • Distribución F f
$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

$$ ** Distribución Exponencial**

curve(dexp(x),from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <-rbinom(20, 1, 0.5)
x
##  [1] 0 1 0 0 0 0 1 0 0 1 1 1 1 0 0 1 0 0 1 1
#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
## 11  9

e.g. Distribución normal

si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
  • Para calcular el cuantil 0.7 de un v.a. normal estándar z, es decir un valor X tal que
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(\( z_\alpha \)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1 )
x
##   [1] 10.495248 10.257780 11.562895  9.503091  9.003000 10.778257 10.418217
##   [8]  8.615657 10.691924 10.699225 10.352091 10.291568  9.896303  8.495113
##  [15]  9.299139 10.581194  9.248475 10.860868 10.146801 10.940457 10.364281
##  [22] 11.454132 10.103551  8.235672 10.331661 10.100351 10.233663 10.967597
##  [29] 10.382461  7.940955  8.761977  9.827693 10.918273  9.788321  9.545010
##  [36]  9.437236 11.669637 11.226512  9.756061 10.395120  9.456714 11.043391
##  [43] 10.623146  7.729304 10.576297  9.481041  9.326512  9.956308  8.937162
##  [50] 10.118898 10.669986  8.259646  9.077351 10.659623 11.534959  8.346985
##  [57]  9.583700  9.570198 10.568749 10.393947  9.067899  9.888387 10.720803
##  [64]  9.838883  9.284146 12.275724  9.669771  9.715485  9.147709  8.917141
##  [71] 10.088953 10.262313 11.175162 11.726610 10.900887  8.790984  9.058178
##  [78]  8.547953 10.548792 10.885108 11.416472  7.663947 10.367038  9.839982
##  [85]  9.886108 10.932411 10.747870 10.558488  9.776018 10.555211  9.431291
##  [92]  9.276468 10.221823 11.124500  8.686719  9.776096  8.931133  9.589590
##  [99] 10.974453  7.879786
  • Para estimar el promedio de x
mean(x)
## [1] 9.976377
  • Histograma de frecuencias
hist(x)

  • Gráfico de cajas y bigote
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) #Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. Si \(z\) es una variable con distribución normal estándar, calcula \(\mathbb (P)(-2.34 < z <4.78)\).
P= pnorm(4.78, mean=0, sd=1) - (pnorm(-2.34, mean=0, sd=1))
P
## [1] 0.9903573

2.Calcula el rango intercuartílico de una población normal estándar.

x=rnorm(20)
x
##  [1] -1.39800094  1.19904149 -1.08032428 -0.25173317 -0.38058303  1.76804714
##  [7]  0.06110409  0.71700564 -1.35816022  0.18094690 -1.14854770 -1.18595627
## [13]  0.90649934 -0.05759748 -0.77927092  0.23288536  0.62178905  2.25809792
## [19]  0.07867747 -0.29854671
IQR(x)
## [1] 1.500127

3.Genera una muestra de tamaño 10 de una poblamción normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

#Muestra 1
x <- rnorm(10, mean=5, sd=1)
x
##  [1] 5.398057 4.234233 4.773539 5.210601 4.346168 3.700717 5.063730 3.017905
##  [9] 5.970213 5.601024
mean(x)
## [1] 4.731619
#Muestra 2
y <- rnorm(10, mean=5, sd=1)
y
##  [1] 4.862199 5.760162 4.628951 4.352927 5.399617 5.849025 6.237994 3.325207
##  [9] 5.036473 6.148838
mean(y)
## [1] 5.160139
#Muestra 3
z <- rnorm(10, mean=5, sd=1)
z
##  [1] 4.040266 5.646404 4.963995 4.320168 3.465276 3.544742 2.086055 4.283019
##  [9] 4.192998 5.787396
mean(z)
## [1] 4.233032
  1. Genera 1000 números con distribuciones de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la medi y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
Pois <- rpois(1000,1)
Pois
##    [1] 1 1 4 1 1 1 4 2 0 0 0 0 1 0 0 2 0 1 2 0 0 1 1 2 0 3 0 2 3 1 1 1 1 0 2 2 1
##   [38] 1 1 1 2 0 0 4 0 2 1 0 1 0 2 1 0 1 1 0 1 1 0 3 2 0 2 1 0 2 0 1 0 1 1 3 3 0
##   [75] 1 1 2 1 1 1 0 2 0 1 1 0 0 3 0 1 1 1 3 1 1 1 1 2 1 1 1 0 1 1 1 1 3 1 1 2 1
##  [112] 1 0 0 1 2 0 0 1 1 1 1 2 1 2 1 3 0 1 0 0 2 0 0 0 0 1 0 3 1 2 1 2 1 0 0 0 0
##  [149] 0 0 1 2 3 0 2 2 1 1 0 0 0 1 1 0 2 0 1 0 0 1 1 0 1 0 2 0 1 0 0 0 1 1 2 1 1
##  [186] 1 1 0 2 2 0 1 0 1 2 1 0 0 0 1 1 2 1 1 1 1 2 0 0 2 1 3 2 1 1 1 0 2 0 1 4 0
##  [223] 0 0 3 4 1 1 0 0 3 0 3 1 1 0 0 0 2 2 0 1 0 1 0 1 0 0 0 1 1 2 0 2 1 1 0 2 1
##  [260] 1 1 2 1 0 0 0 0 1 0 1 0 4 1 0 0 1 1 0 0 1 0 1 1 2 0 2 1 0 0 1 0 2 1 2 2 1
##  [297] 0 1 1 0 0 2 1 0 0 0 2 1 2 0 2 1 1 3 1 1 1 0 3 0 1 1 2 0 1 1 0 0 0 1 0 0 1
##  [334] 1 3 0 0 2 0 0 2 4 0 0 0 2 2 1 0 2 0 1 0 2 3 5 1 1 0 2 1 0 0 3 1 0 2 2 0 1
##  [371] 0 2 1 0 0 1 2 1 2 0 1 2 1 0 0 1 1 1 1 0 0 2 0 0 0 1 3 0 0 1 1 2 3 0 2 1 2
##  [408] 0 0 3 2 1 0 1 2 1 0 2 2 0 1 0 0 1 1 3 2 2 2 0 1 2 2 1 2 0 1 0 0 1 0 2 2 1
##  [445] 1 1 2 0 2 1 0 2 3 0 1 0 1 0 0 0 2 0 0 0 2 1 3 1 0 0 1 0 0 2 0 0 1 2 0 4 0
##  [482] 2 3 2 3 0 0 2 0 0 2 1 2 1 0 0 0 1 1 1 2 2 1 0 0 2 0 2 0 3 2 0 2 0 2 1 1 1
##  [519] 3 1 0 2 2 0 1 0 0 2 2 1 2 0 0 2 0 0 0 0 0 4 1 0 0 0 0 1 0 2 0 1 1 0 1 1 0
##  [556] 0 1 0 0 3 2 1 1 1 1 0 0 0 1 1 1 1 0 0 1 1 1 0 0 0 2 0 0 1 0 1 0 0 0 4 1 1
##  [593] 2 2 2 1 0 0 0 1 0 1 2 0 1 2 1 0 1 0 0 0 0 0 0 0 0 1 0 0 1 2 3 0 2 1 1 0 1
##  [630] 1 0 1 0 2 0 0 0 2 1 3 3 0 0 0 1 0 1 0 1 1 0 0 0 1 0 2 1 0 1 1 0 3 0 1 0 1
##  [667] 1 0 0 1 2 1 1 0 2 0 0 1 0 0 0 0 1 0 0 1 0 2 1 0 2 1 1 1 1 2 2 2 2 0 2 0 2
##  [704] 0 0 0 1 1 2 1 1 0 0 1 0 0 1 3 1 1 1 2 1 0 0 0 2 2 3 1 1 0 0 0 1 2 1 1 0 1
##  [741] 0 1 4 2 2 1 1 3 2 1 0 2 1 0 0 1 1 4 0 4 2 1 1 0 1 3 1 2 1 1 2 1 0 1 0 0 0
##  [778] 2 0 2 0 2 3 2 0 0 0 1 0 4 1 1 1 1 0 2 0 4 1 2 0 0 0 1 1 1 0 0 2 1 1 1 1 2
##  [815] 1 1 0 2 4 1 0 1 4 0 1 2 0 1 2 1 1 2 1 2 1 2 0 1 2 4 0 2 1 0 2 1 0 1 0 2 1
##  [852] 1 0 2 1 1 1 1 0 0 2 1 0 3 0 0 1 2 1 0 0 0 1 0 2 2 1 0 0 0 1 0 0 1 1 2 1 1
##  [889] 0 0 2 1 1 0 0 4 1 1 1 1 3 1 2 2 2 2 3 2 0 2 0 1 1 0 1 2 0 0 1 1 2 0 0 1 0
##  [926] 1 0 0 2 1 3 0 0 0 0 0 1 1 2 1 1 1 0 1 2 0 2 1 1 0 2 0 1 0 1 1 3 0 4 1 1 2
##  [963] 0 2 1 4 1 1 0 0 2 1 3 2 2 1 0 1 0 4 2 1 2 1 1 0 0 3 1 3 5 1 0 0 0 0 0 0 0
## [1000] 2
mean(Pois)
## [1] 0.979
var(Pois)
## [1] 0.9895485
hist(Pois, xlab="Distribución de Poisson", ylab="Frecuencia", main="Histograma de Poisson", col="green")

  1. Calcula con R los siguientes valores: \(t_{3,\alpha}\), \(\chi^2_{3, \alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.01\). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.