AI2UC1_8

Eduardo Cuevas

30/9/2021


INTRODUCCION A LA PROBABILIDAD

Probabilidad es el lenguaje matematico para cuantificar la incertidumbre Waserman

1.Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, Etc. 2.Interpretación frecuentista de la probabilidad. 3.Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio

e.g. Si lanzamos una moneda dos veces entonces:

\[\Omega =\{AA,AS,SA,SS\}\]

Un evento es un subconjunto del espacio muestral

e.g. Que el primer lanzamineto resulte aguila.

\[ A=\{AA,AS\}\]

Eventos equiprobables

La probabilidad se puede ver como una extension de la idea de proporcion, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Quimica hay 300 estudiantes hombres y 700 Mujeres, la proporcion de hombres es: \[ \frac{300}{700+300}=0.3\] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el numero de resultados en A dividido entre el numero total del posible resultado:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]

Por lo que solo hace falta contar. e.g. Combinaciones

Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. Si la seleccion es aleatoria, ¿Cual es la probabilidad de que el comite este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comite, cada uno tiene la misma posibilidad de ser selccionado.

Po otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comite que oncluye 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]

Y la funcion para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602

Interpretacion frecuentista de la probabilidad

Una frecuencia relativa es una proporcion que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesion de observaciones.

lanzaminetos_10 <- sample(c("A","S"),10, replace = TRUE )
lanzaminetos_10
##  [1] "S" "S" "A" "S" "A" "S" "S" "A" "S" "S"

Podemos calcular la secuencia de frecuencias relativas de aguila:

cumsum(lanzaminetos_10 == "A") # suma acumulada de aguilas
##  [1] 0 0 1 1 2 2 2 3 3 3

Dividiendo

round(cumsum(lanzaminetos_10 == "A") / 1:10, 2)
##  [1] 0.00 0.00 0.33 0.25 0.40 0.33 0.29 0.38 0.33 0.30

Distribuciones de probabilidad

** Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

  • Distribución Alias
  • Distribución binomial binom
  • Distribución de Poisson pois
  • Distribución normal norm
  • Distribución exponencial exp
  • Distribución t de Student t
  • Distribución Chi2 chisq
  • Distribución F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 0 0 1 0 1 0 0 1 1 1 1 0 1 1 0 0 0 1 1 0

#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
## 10 10

e.g. Distribución normal

si X es una variable aletoria, con distribución normal de media 3, y du desviación típica es de 0.5, la probabilidad de que X sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
  • Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que
qnorm(0.7)
## [1] 0.5244005

El valor zα que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1 )
x
##   [1]  8.808390 10.453616  9.807681  9.201861 10.978243  8.914616  9.395486
##   [8]  9.352212  9.228472  8.251330  9.469394 10.501987 10.992522  9.655974
##  [15]  8.758869  8.951325  9.925427  9.585923  8.829295 11.533530  9.652081
##  [22]  9.986931 10.002855  9.377629 10.675908 10.296301  9.662114  9.736511
##  [29]  9.143760 10.882323 11.572082 10.691286 10.936883 10.354446 10.375685
##  [36]  9.931289 10.070810 10.656568 10.244243 10.290980  8.393316 10.422711
##  [43]  9.816291  8.691633 10.953552 10.000548 10.319263  9.745012 11.280784
##  [50] 10.483328 10.216004 10.072784 10.951324  8.850635 10.222694 10.893087
##  [57]  7.918900  9.804246 10.790441  9.069874 10.272414 10.369574  9.398871
##  [64] 10.249833  8.890218  9.866709  9.610991 10.661690  8.876736 11.484039
##  [71] 11.098489  9.825925  9.626616 11.776867  8.404378 11.624313  9.794216
##  [78]  8.751521 10.984567  9.361996  9.607246 10.762557 12.112141 12.502460
##  [85]  9.658611  9.503605  9.485371  8.897660 11.736625 11.469185 11.715613
##  [92]  9.217946  9.281239  9.388616 10.486978 11.230608  9.449235  8.800752
##  [99]  8.708068 10.228466
  • Para estimar el promedio de x
mean(x)
## [1] 10.01206
  • Histograma de frecuencias
hist(x)

  • Gráfico de cajas y bigote
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  • 1.- Si z es una variable con distribucion normal estandar, calcula P(−2.34<z<4.78)
P = (pnorm(4.78, mean = 0, sd = 1) - pnorm( −2.34, mean = 0, sd = 1))
P 
## [1] 0.9903573
  • 2.- Calcula el rango intercuartílico de una poblacion normal estándar
pob <- c(1,1,3,3,4,4,5,5,6,6,7,7,8,9,9,9)
summary(pob)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.750   5.500   5.438   7.250   9.000

\(IQR = \{7.25 − 3.25\} = 3\)

  • 3.- Genera una muestra de tamaño 19 de población normal estandar. ¿cuál es la diferencia entre la media mostral y la poblacional? repite el ejercicio 3 veces y anota las 3 diferencias
x <- rnorm(19, mean=3, sd=1) #Intento 1
x
##  [1] 2.174006 3.506906 3.710291 2.521106 2.827100 2.002330 1.868361 3.914130
##  [9] 2.105598 2.669437 2.306588 2.967947 3.152877 2.337315 1.275331 1.884605
## [17] 3.894918 1.258211 4.002826
y <- rnorm(19, mean=3, sd=1)
y
##  [1] 4.024059 2.560403 2.133896 3.279519 3.560212 1.869780 3.100241 3.149060
##  [9] 3.065087 3.817473 2.963394 2.126325 1.787425 2.622282 2.896955 3.070017
## [17] 3.221379 2.159939 4.212537
z <- rnorm(19, mean=3, sd=1)
z
##  [1] 2.8105579 2.5211461 2.8366140 1.9261758 1.9021944 2.9183283 3.4006109
##  [8] 2.2837102 4.2802557 3.2600275 0.6520841 2.3940573 1.7173596 0.4525803
## [15] 2.5076372 0.9321121 1.3923774 4.7688405 2.5071162
  • Resutltado: Incluso poniendo los mismos datos da valores aleatorios.

  • 4.- Genera 1000 números con distribución de Poisson de parámetro λ=1). Representa el gráfico de barras de los numeros obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?

Poiss <- rpois(1000, 1) 
Poiss
##    [1] 1 0 1 0 1 0 0 2 0 1 0 1 0 1 1 3 3 2 2 0 0 3 0 1 1 2 0 1 1 1 0 0 1 0 1 0 1
##   [38] 0 2 3 2 0 2 4 0 0 2 0 0 2 2 2 0 1 0 2 0 1 3 1 3 1 0 1 1 1 2 4 0 0 3 1 1 0
##   [75] 0 1 0 1 0 2 5 0 2 1 2 1 2 0 0 1 0 0 3 0 2 2 0 0 2 2 0 2 1 0 0 0 0 0 1 0 2
##  [112] 2 1 2 0 0 0 2 1 1 1 0 0 3 0 0 1 2 1 1 0 1 1 1 0 0 2 1 3 0 0 2 2 2 1 2 0 1
##  [149] 2 0 1 1 1 1 0 0 1 1 1 2 0 1 1 0 2 1 3 0 1 2 0 0 1 4 2 1 1 0 2 1 1 2 2 1 2
##  [186] 0 2 4 1 0 1 0 1 0 0 0 0 1 0 0 0 1 1 1 1 1 3 4 0 0 0 0 2 0 0 0 1 0 0 0 4 2
##  [223] 1 0 0 0 2 0 1 0 0 1 2 0 0 0 1 1 1 1 3 1 1 0 0 0 1 4 1 1 0 0 1 0 3 2 1 0 0
##  [260] 2 2 0 0 0 2 1 3 3 4 0 0 3 4 1 0 0 3 1 3 1 2 0 0 1 0 5 2 1 1 1 2 0 1 1 0 1
##  [297] 0 1 1 1 0 1 2 1 1 1 0 1 1 1 1 1 1 2 1 0 0 3 0 2 0 1 4 1 2 0 1 2 0 0 2 0 1
##  [334] 0 0 0 2 1 1 0 0 1 1 1 1 0 2 0 1 0 0 1 1 3 1 3 0 2 0 1 1 1 1 1 0 0 1 3 1 3
##  [371] 1 1 2 0 0 0 0 1 0 1 1 1 1 1 3 1 0 1 0 0 1 1 0 2 2 1 0 0 0 2 1 0 0 1 0 1 2
##  [408] 1 1 0 1 0 1 2 2 0 1 1 1 2 2 3 2 0 2 0 3 1 0 2 0 1 2 1 0 4 1 2 1 0 1 0 1 2
##  [445] 1 3 0 1 0 0 2 0 0 3 0 2 3 1 2 0 0 0 1 0 1 2 1 5 0 1 0 2 1 0 0 1 1 2 1 0 2
##  [482] 1 1 1 2 2 0 1 1 0 1 0 0 1 1 1 2 0 1 0 1 1 1 0 3 1 0 1 1 1 0 1 1 0 0 0 2 1
##  [519] 0 1 1 3 0 1 1 0 1 0 2 3 3 0 0 1 2 0 2 2 2 0 1 1 1 2 2 0 1 1 0 2 2 1 2 1 0
##  [556] 1 0 1 2 1 0 0 4 1 0 2 2 2 1 1 1 0 3 1 0 1 4 0 0 0 2 2 0 2 1 1 2 1 1 1 2 1
##  [593] 0 0 2 0 2 1 0 0 0 2 1 0 0 0 0 0 1 0 0 1 0 0 3 4 1 1 1 0 0 0 1 0 2 0 2 1 1
##  [630] 2 2 3 3 0 2 1 1 0 0 2 0 0 0 0 3 1 0 1 0 1 1 0 1 1 0 1 2 3 3 1 1 4 0 2 1 0
##  [667] 1 1 3 1 1 1 0 1 2 0 1 1 3 1 1 1 2 3 0 0 0 2 2 2 2 0 1 1 0 1 1 1 3 1 2 2 0
##  [704] 5 0 1 1 1 2 1 1 1 0 3 2 1 2 0 1 0 0 3 1 1 0 1 1 2 2 0 1 0 1 2 2 2 1 1 0 0
##  [741] 0 1 0 2 0 1 1 0 2 1 0 0 1 1 1 0 1 2 1 0 0 0 2 0 2 1 1 1 1 0 1 0 0 1 0 0 0
##  [778] 0 0 2 2 1 0 0 1 0 1 0 0 1 3 0 0 1 2 2 2 0 0 0 0 1 0 3 1 0 1 4 1 0 2 2 0 2
##  [815] 2 1 1 1 2 1 1 1 0 0 2 4 0 2 1 0 2 1 1 2 2 0 3 1 0 0 1 1 2 1 1 0 0 0 0 1 1
##  [852] 0 3 0 0 0 3 0 2 0 2 0 2 0 2 0 0 1 3 2 1 0 0 1 3 0 1 0 0 0 0 0 4 2 0 0 0 2
##  [889] 3 1 2 0 0 1 2 1 0 1 3 0 1 0 1 0 1 1 0 1 1 0 0 1 2 1 0 0 0 0 0 0 0 1 3 1 0
##  [926] 1 4 3 2 0 0 1 0 2 1 0 2 2 1 0 3 1 1 2 1 1 1 0 1 1 1 1 2 2 1 0 1 0 1 2 1 0
##  [963] 3 1 0 1 0 1 0 1 1 1 0 3 1 1 1 0 1 0 0 3 0 1 4 0 0 0 1 4 1 2 0 0 1 0 0 0 1
## [1000] 2
mean(Poiss) # media
## [1] 1.005
var(Poiss) #varianza
## [1] 1.050025