U1A5

Orlando Mendivil

16/02/2021

Introducción a la probabilidad

Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. - Wasserman

  1. Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad.
  2. Interpretacion frecuentista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[ A=\{AA, AS\}\]

Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Quimica hay 300 hombres y 700 mujeres, la proporción de hombres es:

\[ \frac{300}{700+300} = 0.3 \]

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)}\]

Por lo que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿Cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15,5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

lanzamientos_10 <- sample(c("A","S"), 10, replace = TRUE)
lanzamientos_10
##  [1] "S" "A" "S" "A" "A" "S" "S" "S" "A" "A"

Podemos calcular la secuencia de frecuencias relativas de águila:

cumsum(lanzamientos_10 == "A") # Suma acumulada de águilas
##  [1] 0 1 1 2 3 3 3 3 4 5

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 0.00 0.50 0.33 0.50 0.60 0.50 0.43 0.38 0.44 0.50

Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:

  • Distribución Alias
  • Distribución binomial binom
  • Distribución de Poisson pois
  • Distribución normal norm
  • Distribución exponencial exp
  • Distribución t de Student t
  • Distribución Chi2 chisq
  • Distribución F

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{Random} & \text{Genera datos aleatorios según una distribución especifica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial

curve(dexp(x), from = 0, to = 10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución Binomial

1 representa exito, 0 representa fracaso.

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 1 0 0 0 1 1 0 0 1 1 1 0 1 1 0 0 1 1 1
#Genera 20 observaciones con distribución B(1, 0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
##  8 12

e.g. Distribución normal

Si \(x\) es una variable aleatoria, con distribución normal de media 3 y su desviación tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
  • Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica l (y guardarla en un vector x):
x <- rnorm(100, mean = 10, sd = 1)
x
##   [1] 11.169538  8.753264  9.405135 10.283719  7.287698 10.157602  8.748622
##   [8]  9.224794  9.270618  9.925875  9.175082  9.895839 10.102421  8.905022
##  [15]  9.768012  9.064914 10.999146 10.909552 10.705331 10.302539 10.372045
##  [22] 10.561727  9.629057  8.595817 11.063461  9.739686 10.089119  9.797061
##  [29] 10.987278  9.753516 11.555428 11.684114 11.767440  7.826183  9.259231
##  [36]  8.949495  9.932139  9.693207 11.085038  9.408288 10.344566  9.851146
##  [43] 10.371680  9.669226 11.815979 10.050240 11.614272  9.548897 10.135826
##  [50] 11.262208 10.985674  9.396918 10.656412 10.275226  9.851561  9.643136
##  [57]  9.980357 11.342800 11.458519 10.946244 10.391798 11.111485 10.277860
##  [64] 10.063355 11.492996 10.489836  9.431169  9.480033 10.249654  9.852141
##  [71] 10.936593  8.345797  8.944294 11.746623 10.979525 11.053808 10.182414
##  [78] 12.167522 10.027028  7.823250  8.604446 11.127121  8.775150 10.988579
##  [85]  8.569897 10.540335  9.472111 10.154163  9.384286 10.766161 11.099763
##  [92]  8.702527  9.806971 10.824816 10.028367 11.286066  9.717737 10.714561
##  [99]  9.410590 11.019689
  • Para estimar el promedio de x
mean(x)
## [1] 10.11045
  • Histograma de frecuencias
hist(x)

  • Grafico de cajas y bigote
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq = FALSE) # Freq = FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean= 10, sd= 1), from=7, to=13, add=TRUE)

Ejercicios

  • Si \(Z\) es una variable con distribución normal estándar, calcula \(P(−2.34<Z<4.78).\)
p = pnorm(4.78, mean = 0, sd = 1) - (pnorm(-2.34, mean = 0, sd = 1))
p
## [1] 0.9903573
  • Calcula el rango intercuartílico de una población normal estándar.
l <- c(1,2,5,5,6,7,8,9,9,9)
summary(l)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    5.00    6.50    6.10    8.75    9.00
IQR(l)
## [1] 3.75
  • Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
l <- rnorm(10, mean = 7, sd = 4)
l
##  [1]  8.6859117  8.2076070  6.8505477 -0.8338919  2.9110262 15.4969323
##  [7] 11.3926429  1.0131790  5.1317444  9.0340831
mean(l)
## [1] 6.788978
l <- rnorm(10, mean = 7, sd = 4)
l
##  [1]  3.257028  1.272925 -2.365710  9.052169  8.675661  7.268789  7.842271
##  [8]  9.673272  8.995503  3.358544
mean(l)
## [1] 5.703045
l <- rnorm(10, mean = 7, sd = 4)
l
##  [1]  7.872642  6.836645  8.494783  8.211806  1.149942 11.829531 12.670755
##  [8] 10.693156 10.791474  1.494329
mean(l)
## [1] 8.004506

Nuestros datos son aleatorios es por eso que el resultado varia dependiendo totalmente de la suerte.

  • Genera 1000 números con distribución de Poisson de parámetro λ=1.
poiss <- rpois(1000,1)
poiss
##    [1] 1 3 1 2 2 0 0 0 1 1 1 2 0 1 3 3 0 1 1 0 1 0 3 1 0 4 2 1 1 2 1 0 1 0 2 2 0
##   [38] 2 4 1 0 2 3 2 0 1 1 2 0 1 2 1 0 2 1 0 0 0 4 0 0 0 1 3 2 1 2 2 0 2 1 0 1 0
##   [75] 1 0 0 3 0 2 0 0 0 0 0 0 0 0 1 3 2 3 0 0 2 1 2 1 2 1 0 0 1 1 2 2 0 0 2 0 2
##  [112] 0 1 2 2 1 0 0 1 0 2 0 3 0 1 3 2 1 0 1 1 0 0 2 0 0 3 4 0 2 0 0 0 1 0 1 0 2
##  [149] 1 0 2 1 1 1 2 2 0 0 1 0 1 2 0 2 0 2 0 1 1 2 0 0 1 0 0 2 0 1 0 3 2 0 1 1 2
##  [186] 3 1 2 1 0 1 3 3 0 0 1 0 0 0 3 1 0 1 1 0 1 4 4 1 0 0 1 0 1 0 1 2 0 1 3 1 0
##  [223] 2 3 0 0 0 0 0 3 0 1 3 2 1 1 2 1 0 2 2 0 0 0 2 1 0 2 0 2 0 2 0 1 0 3 2 0 0
##  [260] 2 1 1 0 4 0 1 5 3 0 1 1 2 0 2 2 3 2 2 2 0 1 1 0 0 1 0 0 0 0 1 1 2 2 1 2 0
##  [297] 0 2 1 4 0 0 0 2 0 0 0 1 0 1 0 0 0 0 1 1 1 1 0 1 0 0 0 1 1 1 1 1 2 0 2 1 0
##  [334] 1 1 2 2 1 3 1 2 0 1 1 2 3 0 2 2 0 2 3 0 0 2 1 0 0 0 1 2 0 2 2 0 0 1 1 0 1
##  [371] 2 1 3 2 1 4 0 3 0 1 2 1 1 0 0 0 0 1 2 3 1 3 1 2 1 1 3 0 3 1 1 0 3 1 1 1 0
##  [408] 2 2 1 1 0 1 1 0 1 2 1 0 0 0 3 0 1 0 1 1 2 2 1 1 0 0 0 2 2 2 0 2 2 0 0 2 4
##  [445] 0 1 3 0 1 2 2 1 3 1 2 1 2 1 0 2 1 0 1 1 0 1 0 0 1 0 0 0 2 1 0 1 0 0 4 0 2
##  [482] 0 0 1 4 1 1 1 1 1 2 1 1 0 1 1 0 0 2 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 2 1 1 0
##  [519] 1 0 2 2 1 4 4 0 1 1 0 2 2 0 0 0 3 1 1 1 2 0 4 0 1 0 0 0 4 1 0 0 1 2 0 0 0
##  [556] 0 1 2 0 0 1 1 0 1 0 0 1 2 0 3 1 2 2 0 3 0 0 0 0 2 1 0 3 2 0 0 0 1 1 1 1 0
##  [593] 0 0 1 0 0 3 0 2 1 1 0 1 1 0 0 1 0 2 1 2 2 0 2 0 1 0 0 0 2 0 0 1 0 0 2 1 3
##  [630] 1 0 1 2 1 0 1 0 1 0 2 1 0 1 3 1 1 0 3 1 1 1 0 2 0 0 3 1 1 2 2 1 4 1 0 2 1
##  [667] 0 1 0 2 2 1 0 2 2 1 2 0 1 1 1 2 2 1 2 2 0 0 1 1 0 3 0 0 1 1 2 1 2 0 2 3 2
##  [704] 0 1 0 1 0 2 2 2 0 1 0 3 0 2 2 0 0 2 0 2 0 1 1 2 1 0 0 0 1 0 0 0 0 0 1 2 1
##  [741] 1 2 1 1 0 1 0 0 0 0 0 0 1 1 1 2 4 1 1 2 1 1 1 0 2 2 1 1 0 1 0 1 1 0 0 2 4
##  [778] 0 3 2 3 0 2 0 1 0 0 0 4 0 0 1 1 0 0 1 1 1 1 0 1 2 2 3 1 1 0 0 2 0 0 2 1 3
##  [815] 1 0 0 1 1 1 0 1 1 2 1 2 1 0 0 3 0 3 0 0 0 0 0 1 0 0 1 1 1 1 0 1 1 0 2 1 2
##  [852] 3 1 1 1 1 0 1 1 1 1 0 0 1 1 0 0 0 2 1 1 0 1 0 2 1 0 0 0 1 0 2 0 1 0 0 2 2
##  [889] 1 3 1 0 0 0 1 3 0 0 0 0 0 2 1 2 3 2 2 0 0 2 1 4 0 0 0 0 0 2 1 0 1 1 2 0 0
##  [926] 0 1 1 2 1 1 1 1 2 0 1 0 0 2 1 2 2 2 0 1 1 0 0 1 0 1 2 2 1 0 1 2 0 2 0 0 3
##  [963] 1 1 0 3 2 1 0 3 1 3 2 2 0 1 0 3 2 0 2 1 0 2 1 1 0 1 1 0 1 3 0 0 1 1 0 1 1
## [1000] 0
mean(poiss)
## [1] 1.016
var(poiss)
## [1] 1.040785
hist(poiss, xlab = "Distribución de Poisson", ylab= "Frecuencia", main = "Histograma de Poisson", col="light blue", border = (color = "black"))

Como se puede apreciar no se parecen a los datos teoricos.