U1A4

Angélica Payán Serna

10/02/2021


setwd("~/Estadistica")

Introducción a la probabilidad

Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. -Wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretación frecuentista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

Ejemplo. Si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS\} \] Un evento es un subconjunto del espacio muestral, usualmente se denotan por mayúsculas.

Ejemplo. Que el primer lanzamiento resulte águila.

\[ A = \{AA, AS\} \] ## Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción o cociente de una parte con respecto a un todo.

Ejemplo. En la carrera de IQ hay 300 estudiantes hombres y 700 mujeres, la proporción de hombres es:

\[ \frac{300}{700+300}= 0.3 \] Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos, entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A)= \frac{\#(A)}{(\#\Omega)} \] por lo que solo hace falta contar.

Ejemplo. Combinaciones.

Un comité de 5 personas será seleccionado de un grupo de 6 H y 9 M, si la selección es aleatoria, ¿Cuál es la probabilidad de que el comité este formado por 3 H y 2 M?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incliyen 3 H y 2 M, por lo tanto, la probabilida que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}} {\dbinom{15}{5}} \] y la función para calcular las comibaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15 , 5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A", "S"), 10, replace= TRUE)
lanzamientos_10
##  [1] "S" "S" "S" "S" "A" "S" "A" "S" "S" "S"

Podemos calcular la secuencia de frecuencias relativas de águila

cumsum(lanzamientos_10 == "A") # suma acumulada de águilas
##  [1] 0 0 0 0 1 1 2 2 2 2

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 0.00 0.00 0.00 0.00 0.20 0.17 0.29 0.25 0.22 0.20

Distribuciones de probabilidad

Funciones en R

  • Distribución Alias
  • Binomial binom
  • Poisson pois
  • Normal norm
  • Exponencial exp
  • t de Student t
  • F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución exponencial

curve(dexp(x), from=0, to=10)

#densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial Conteo de éxitos vs fracasos

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 0 1 0 0 0 0 0 0 1 0 1 0 0 1 1 0 0 0 1
#10 observaciones con distribución B(1,0.5)

COntando éxitos vs fracasos

table(x)
## x
##  0  1 
## 13  7

Ej. Distribución normal

Si \(X\) es una variable aleatoria con dist. normal de media 3, y su desv. est. es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

La probabilidad de que \(X\) sea menor que 3.5 es de 8.41%

  • Para calcular el cuantil 0.7 de una variable aleatoria normal estándar Z, es decir, un valor X tal que:
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el mismo cuantil pero para una variable aleatoria normal de media 0 y una SD de 0.5:
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas pra intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y SD de 1:
x <- rnorm(100, mean=10, sd=1)
x
##   [1]  8.868718  9.864782  9.535844  9.108753  9.009428  7.959719  9.992607
##   [8] 10.952812  9.634404 10.153481  9.389543  9.446805  9.659581 11.455023
##  [15]  8.783901 11.528005  8.432378  9.563866 10.614594  9.240503 11.872195
##  [22]  9.674896  9.311983 11.253026 10.891849 10.391914  9.257823  9.760646
##  [29]  8.560800  8.446118 11.468851 10.771199 10.035184 10.405651  8.910096
##  [36]  9.971595  7.342829  9.184066  9.562691 11.102532  9.363569  9.920381
##  [43] 11.201981  8.742601  9.147444  8.821621  9.972396 12.068574 10.936626
##  [50]  8.530383 10.163576 10.215758 11.793362  8.998386  9.769891 10.281252
##  [57]  9.550834 10.217552 10.566162  9.940216  9.386814  9.950444  8.436177
##  [64]  9.533791  9.907700  9.272390  9.265533  9.162789  8.529869 11.285168
##  [71] 10.897945 11.430925 12.281905 10.151178 10.185129  9.814126  9.354061
##  [78]  9.164827 10.418336  9.012892  9.167586 10.219431 10.811688  9.769912
##  [85] 12.049556  8.085173  8.153548 11.180718  8.218749 10.977405  9.315486
##  [92] 10.090913  9.580972 10.389017 10.124340  9.605834 10.660306 10.059039
##  [99]  8.787287  9.308424
  • Para estimar el promedio de x
mean(x)
## [1] 9.855706
  • Histograma de frecuencias
hist(x)

  • Gráfico de cajas y bigote
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sean 1) junto con la densidad de población
hist(x, freq=FALSE)
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

EJERCICIOS

  1. Si z es una variable con distribución normal estándar, calcula P(−2.34<z<4.78)
p <- pnorm(1.78, mean=0, sd=1)-(pnorm(-2.34, mean=0, sd=1))
p
## [1] 0.9528201
  1. Calcule el rango intercuartílico de una población normal estándar.
k <- c(1,2,3,4,5,6,7)
summary(k)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0     2.5     4.0     4.0     5.5     7.0

\[ IQR= {5.5-2.5}= 3 \] 3. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repetir el ejercicio 3 veces.

a <- rnorm(10, mean=3, sd=1)
a
##  [1] 4.367530 2.407869 4.896818 2.942805 3.021406 1.877517 2.784269 3.839973
##  [9] 3.142131 2.779789
b <- rnorm(10, mean=2.3, sd=1)
b
##  [1] 1.437064 3.109791 4.164837 0.857237 0.623613 1.916933 2.343693 2.294206
##  [9] 1.243053 1.959795
c <- rnorm(10, mean=2, sd=1)
c
##  [1] 0.4655848 1.1272417 3.9057535 2.1247105 1.3311387 3.5450032 1.1822078
##  [8] 2.7278387 1.6545638 2.2839817

La diferencia entre la media muestral y la muestra poblacional, es que en la primera solamente se toma una parte de la muestra, y en la segunda se toma la población completa del análisis.

  1. Generar 1000 números con distribución de Poisson de parámetro \[ \lambda=1\]. Representar el gráfico de barras de los números obtenidos. calcular media y varianza de los npumeros obtenidos. ¿Se parecen a los valores teóricos?.
o <- rpois(1000,1)
o
##    [1] 0 1 1 1 1 1 0 1 0 0 0 2 1 1 2 0 0 1 1 0 0 2 1 0 1 1 1 3 2 1 2 0 0 0 3 1 1
##   [38] 0 2 1 0 3 0 3 0 0 1 1 0 0 0 1 1 0 0 1 3 1 0 1 1 0 1 0 1 0 1 1 0 3 1 0 0 1
##   [75] 1 3 0 0 1 0 2 0 2 0 1 2 0 2 0 2 1 2 1 0 0 3 0 0 1 1 0 0 1 2 1 0 0 4 0 1 3
##  [112] 0 1 1 1 2 1 0 3 2 2 1 0 2 0 0 2 1 1 1 0 1 1 1 2 3 0 1 3 3 1 2 1 1 1 0 0 1
##  [149] 2 0 1 1 2 0 2 0 1 0 0 1 2 0 0 0 2 2 2 1 0 1 0 0 0 2 1 1 4 2 1 0 2 1 2 0 1
##  [186] 3 1 0 2 1 2 0 1 0 3 3 1 1 1 0 1 1 2 0 0 1 1 2 0 0 1 1 2 1 1 0 2 1 0 1 2 3
##  [223] 0 0 0 1 1 0 0 0 0 0 1 2 4 1 1 1 1 2 1 2 2 2 1 1 1 1 2 0 1 3 1 3 1 0 0 2 0
##  [260] 4 3 2 1 1 0 2 2 3 0 1 1 0 2 0 0 4 0 1 2 3 0 3 1 3 0 0 2 1 0 2 0 0 2 0 1 1
##  [297] 0 2 1 1 1 0 2 1 2 1 0 0 2 0 1 0 3 0 1 1 2 1 0 1 3 0 3 1 1 1 0 2 0 0 1 0 2
##  [334] 3 1 0 0 3 1 0 0 1 0 2 0 1 1 0 2 0 0 4 2 3 1 2 1 0 3 1 0 0 1 0 0 1 1 0 1 0
##  [371] 0 0 2 0 0 1 2 2 2 0 1 3 1 0 0 0 1 3 0 0 1 1 1 1 0 2 1 0 2 1 1 1 1 0 0 0 0
##  [408] 2 0 0 0 1 1 1 5 2 1 0 2 0 0 1 0 0 1 0 0 0 3 0 1 0 0 1 1 0 2 1 1 1 0 0 0 0
##  [445] 2 1 3 0 0 1 2 1 0 2 2 1 0 1 1 0 2 0 4 2 0 1 2 0 0 1 2 2 1 1 2 0 1 2 0 1 1
##  [482] 1 5 0 0 0 1 1 0 0 0 2 1 2 0 0 4 1 1 0 2 1 1 0 0 2 1 2 5 0 1 2 0 1 3 0 3 2
##  [519] 1 0 1 1 2 0 1 0 2 0 1 0 0 1 1 2 1 3 0 0 2 1 1 0 0 0 2 1 0 2 2 0 2 1 1 0 3
##  [556] 2 0 2 1 0 1 1 0 2 3 2 3 1 0 2 1 0 2 0 4 2 1 3 3 0 0 0 2 1 1 1 0 0 2 1 3 3
##  [593] 0 0 0 2 0 0 0 1 0 0 1 3 2 0 0 1 1 2 2 1 1 0 3 2 3 0 0 3 0 1 1 2 0 2 3 0 1
##  [630] 2 0 1 2 0 0 1 0 1 0 0 2 0 1 0 1 0 2 2 0 2 3 0 1 1 0 0 1 0 0 2 0 1 0 1 1 1
##  [667] 1 1 2 1 2 1 1 0 1 0 1 1 0 0 1 1 0 1 2 1 1 0 1 2 0 1 2 2 2 0 1 0 1 2 1 0 3
##  [704] 1 2 1 2 1 0 0 3 2 1 0 0 1 0 0 2 2 0 0 1 2 1 1 2 2 2 0 2 1 0 1 2 1 0 0 1 1
##  [741] 1 1 4 0 1 2 3 1 0 2 1 2 6 2 1 3 1 0 1 4 3 2 0 0 1 1 4 1 0 3 2 0 1 1 0 1 4
##  [778] 0 0 0 2 0 4 2 1 1 2 2 1 0 1 0 0 0 1 2 1 0 0 2 0 3 1 0 0 1 2 2 3 3 0 2 2 1
##  [815] 0 2 1 1 1 1 2 2 0 1 0 1 2 1 0 0 1 1 1 0 2 2 1 0 1 1 0 0 2 0 2 1 1 2 0 0 2
##  [852] 0 1 2 0 1 1 0 0 1 1 0 0 2 0 0 2 3 2 0 1 2 1 0 3 2 0 0 0 3 0 2 0 0 2 0 1 2
##  [889] 1 2 2 1 0 1 1 0 2 0 0 1 0 2 0 0 1 0 1 0 1 0 1 0 1 2 0 1 0 1 0 1 0 1 1 1 0
##  [926] 1 0 0 1 2 0 1 1 4 2 1 2 1 1 2 1 1 0 1 2 1 1 1 1 2 2 0 0 0 1 1 1 5 0 2 2 2
##  [963] 0 0 1 0 0 0 1 2 2 2 3 2 0 0 2 1 1 1 1 0 1 2 1 1 2 0 2 1 0 2 0 1 1 1 4 0 1
## [1000] 2
hist(o)

mean(o)
## [1] 1.039
var(o)
## [1] 1.05053

La media y la varianza si se parecen a los números teóricos, ya que la mayoría estan entre 1 y 2.