U1A4

jose manzano

11/2/2021

Introducción a la probabilidad

Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. Wasserman

  1. Terminolgía de probabilidad: espacio de resultados, eventos, funcionesde probabilidad, etc.
  2. Interpretación frecuencista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados Ω es el conjunto de posibles resultados de un experimento aleatorio.

Ejemplo: Si lanzamos una moneda dos veces entonces \[\Omega = \{ AA,AS,SA,SS \}\] Un evento es un subconjunto del espacio muestral El evento: que el primer lanzamiento resulte águila es \[ A= \{AA, AS\} \] # Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados

\[ P(A)= \frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

e.g. Combinaciones.

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿ Cuál es la probabiloidad de que el comité esté conformado por 3 hombres y 2 mujeres

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte, hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y dos mujeres, por lo tanto, la probabilidad que buscamos es:

\[\frac{\dbinom{6}{3} \dbinom{9}{2}} {\dbinom{15}{5}} \] y la función paraa calcular las combinaciones es choose (n, r)

choose(6,3)*choose(9,2)/choose(15,5)
## [1] 0.2397602

#Interpretación frecuentista de la probabilidad.

La frecuencia relativa es una proporción que mide qué tan seguido o frecuente ocurrre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A","S"),10,replace= TRUE)
lanzamientos_10
##  [1] "S" "A" "S" "A" "S" "S" "S" "A" "A" "A"

Suma de freceuencias relativas de águila:

cumsum(lanzamientos_10=="A") # Suma acu,ulada de A
##  [1] 0 1 1 2 2 2 2 3 4 5

Dividiendo

round(cumsum(lanzamientos_10=="A")/1:10,2)
##  [1] 0.00 0.50 0.33 0.50 0.40 0.33 0.29 0.38 0.44 0.50

Distribuciones de probabilidad.

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias, las palabras clave para las distribuciones más importantes son:

Distribución Alias Distribución binomial binom Distribución de Poissono pois Distribución normal norm Distribución exponencial exp Distribución t de student t Distribución Ch2 chisq Distribución F f \[ \begin{array}{l|l|l|c} \text{Funcion} & \text{Significado} & \text{Uso}& \text{Obcervacion}\\ \hline p & \text{Probability} & \text{Calcula probabilidad acumulada (cdf)} & \text{---}\\ q & \text{quantile} & \text{calcula cuantiles (percentiles)} & \text{---}\\ d & \text{densety} & \text{calcula probabilidades puntuales} & \text {solo uso grafico en el caso continuo} & \text{---}\\ r & \text{random} & \text{genera datos segun una distribucion grafica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial

curve(dexp(x), from=0, to=10)

Distribution binomial

x <- rbinom (20,1,0.5)
x
##  [1] 0 0 0 0 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0

contando exitos vs fracasos

table(x)
## x
##  0  1 
## 10 10

Distribución normal

si x es una variable aleatoria con distribución normal de media 3, y su desviación tipica es de 0.5, la probabilidad de que x, sea menor que 3.5, se calcula en R de esta forma.

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

Para calcular el cuantil 0.7 una v.a. normal estándar z, es decir, un valor x tal que

qnorm(0.7)
## [1] 0.5244005

Para calcular el mismo cuantil pero para una v.a. normal estándar de media 0 y una sd de 0.5:

qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor de (zα) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Por ejemplo:

qnorm(0.975)
## [1] 1.959964

Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):

x <- rnorm (100, mean=10, sd=1)
x
##   [1]  8.801105  9.502144  8.555852 11.110611 11.260361 11.590606  9.722986
##   [8] 10.695904  9.705857 12.306549 10.324807  9.258858 10.113214  9.991763
##  [15] 10.077099 10.176355 10.641855  8.622544  9.001500 11.328702 11.035294
##  [22]  9.536655 10.500933  7.972636  9.965306  9.073427 10.383205 12.224260
##  [29]  9.118464  8.711371  9.074321 10.264104  9.760426 11.609819 12.194087
##  [36]  9.602877 11.029392 11.432881  9.553983  9.463769  8.455458 11.491405
##  [43] 10.865104  9.745282  7.975705 12.509744 10.592942  8.986726  8.672617
##  [50]  8.707945 10.865772 11.478672 10.277373 11.738276  9.500672  9.627643
##  [57]  9.302269  9.890923  9.363314  9.577835 10.683889 10.875547  9.540730
##  [64] 10.580581  9.367584  9.565109  9.843277 10.654519  9.788331  8.750515
##  [71]  9.598495  9.464405  8.728408 10.865537  8.947235 11.102370 11.484915
##  [78] 10.516334 11.157981  9.609945  7.876426 10.546520  9.409892  9.962909
##  [85]  8.525195  9.913454 10.714733 10.565780  9.015871  7.860117  9.799309
##  [92] 10.628895 10.543076 11.912154 10.570028  9.212510  8.995302  9.344326
##  [99] 12.005571 12.236844

Para estimar promedio de x

mean(x)
## [1] 10.05686

Histograma de frecuencias

hist(x)

Gráfico de caja y bigotes

boxplot(x)

Histograma de la muestra junto con la densidad de la población

hist(x, freq=FALSE) #Freq= FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Problemas

si \(z\) es una variable con distribución normal estándar, calcula \(\mathbb(r)(-2.34 < z < 4.78\))

P=pnorm(4.78, mean=0, sd=1)-(pnorm(-2.34, mean=0, sd=1))
P
## [1] 0.9903573

Calcule el rango intercuartílico de una población normal estándar.

f <- c(1,4,4,4,5,5,6,6,6,6,7,8,8,9)
summary(f)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   4.250   6.000   5.643   6.750   9.000

\[ IQR=\{3erQ - 1erQ\} \] \[ IQR= 6.75-4.25 = 2.5 \] Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces

x <- rnorm(10, mean=5, sd=1 )
x
##  [1] 4.846260 6.264000 6.248396 7.664839 6.432867 4.407454 4.679389 4.838290
##  [9] 6.244307 5.931434
y <- rnorm(10, mean=5, sd=1 )
y
##  [1] 3.778128 4.740692 7.179135 5.603044 4.240222 3.888665 6.092957 3.704517
##  [9] 4.517933 5.029499
z <- rnorm(10, mean=5, sd=1 )
z
##  [1] 4.590796 4.981802 4.699533 4.525533 2.823481 4.842832 5.853261 3.932175
##  [9] 6.138165 4.076982

Generar 1000 números con distribución de Poisson de parámetro λ=1. Representar el gráfico de barras de los números obtenidos. calcular media y varianza de los npumeros obtenidos. ¿Se parecen a los valores teóricos?.

p <- rpois(1000, 1) 
p
##    [1] 0 1 0 2 1 1 2 0 1 1 0 0 1 2 1 0 0 1 2 1 1 3 0 2 1 0 1 1 1 1 1 1 1 0 1 1 1
##   [38] 0 0 0 1 2 1 3 2 0 0 2 1 0 2 0 2 3 0 3 1 1 1 2 0 0 3 1 2 1 2 1 1 1 0 0 2 0
##   [75] 0 1 1 2 2 0 0 1 0 0 0 0 1 1 1 0 3 1 4 1 3 3 1 0 2 2 0 3 0 0 0 1 1 3 1 1 1
##  [112] 1 0 1 1 0 1 3 1 3 2 0 1 4 0 1 3 1 1 2 0 1 2 2 0 1 3 0 1 0 0 0 3 1 0 2 1 2
##  [149] 1 2 1 1 2 0 1 2 1 1 3 2 0 1 3 0 2 0 3 1 1 1 1 3 2 0 0 0 1 0 1 1 0 0 1 0 1
##  [186] 0 2 0 1 3 0 0 0 0 0 2 0 2 2 2 1 1 2 0 2 1 2 0 0 1 2 1 1 0 0 1 1 1 2 0 2 1
##  [223] 0 2 0 1 2 5 4 0 0 0 1 0 0 1 0 0 3 0 4 1 1 1 1 1 0 2 0 0 3 2 0 1 0 3 0 1 1
##  [260] 0 0 1 2 1 1 1 2 0 1 1 1 3 1 3 2 0 0 1 2 0 1 0 0 0 2 0 1 4 1 1 3 0 0 1 2 0
##  [297] 0 3 0 0 1 1 0 1 0 1 2 1 0 2 0 1 1 4 1 0 0 0 1 2 0 0 2 0 1 1 0 2 2 0 0 2 1
##  [334] 1 3 1 0 2 3 0 1 3 0 2 1 0 2 3 0 2 2 1 2 3 1 2 0 0 0 0 0 1 0 3 2 2 1 0 1 1
##  [371] 0 0 2 0 0 2 1 1 0 0 2 3 0 1 0 1 0 1 2 1 1 0 2 1 1 1 1 0 0 2 0 1 1 2 2 1 3
##  [408] 2 1 3 0 1 0 0 0 1 0 1 2 1 2 0 3 1 3 0 1 1 1 0 1 0 1 0 1 2 1 2 2 0 0 0 1 3
##  [445] 0 0 2 2 0 1 1 2 2 3 2 1 2 1 1 1 0 3 1 0 0 0 1 2 1 0 0 0 0 2 2 1 1 0 0 0 1
##  [482] 3 1 2 3 0 0 1 0 1 1 0 0 1 0 1 0 2 0 3 2 3 0 0 0 3 2 2 2 1 1 0 0 2 2 2 1 0
##  [519] 0 1 0 1 1 0 0 1 0 2 1 2 0 2 1 0 1 0 1 0 0 2 1 0 2 1 1 0 1 5 0 1 2 1 2 0 4
##  [556] 0 0 1 1 0 1 0 0 0 0 0 1 1 0 1 0 1 1 0 2 3 1 1 1 1 2 1 0 0 1 2 0 1 1 3 0 2
##  [593] 1 2 0 1 1 1 1 1 1 1 2 1 1 1 0 2 1 1 2 3 2 2 2 1 3 0 2 0 1 0 1 1 1 1 2 0 2
##  [630] 2 2 1 0 1 2 2 1 1 1 0 0 0 2 2 2 0 0 1 1 0 1 0 1 0 3 0 0 1 0 1 1 2 1 0 1 1
##  [667] 2 0 1 2 2 0 3 0 1 1 2 0 2 1 3 1 1 3 0 2 2 2 0 1 0 0 0 1 1 3 1 0 1 1 0 1 2
##  [704] 0 2 2 0 0 0 1 2 2 0 1 2 0 4 0 0 2 0 2 2 2 0 1 2 3 1 0 0 1 1 0 1 1 2 2 0 1
##  [741] 3 3 0 0 0 2 1 0 0 0 0 0 0 1 0 0 1 0 0 2 0 1 2 2 0 2 0 0 1 0 0 1 0 1 1 0 1
##  [778] 0 0 3 1 1 1 4 2 2 0 1 1 1 3 1 0 0 0 0 1 0 0 1 3 2 2 0 0 3 1 3 2 0 2 0 0 2
##  [815] 2 1 1 0 1 0 1 0 1 1 2 1 1 2 2 2 0 1 0 1 0 3 0 1 0 3 1 1 4 1 1 1 0 1 2 1 1
##  [852] 1 1 1 2 0 1 0 1 1 1 1 1 0 1 0 0 1 2 2 0 2 1 3 2 1 3 2 0 1 0 2 1 1 5 0 0 0
##  [889] 1 1 1 1 0 1 1 3 2 1 1 0 0 0 1 0 0 1 1 0 0 0 0 1 0 3 2 2 1 1 2 2 0 2 0 0 0
##  [926] 0 2 2 0 1 2 3 0 1 2 1 2 0 0 1 0 1 2 0 0 1 0 1 0 1 1 1 0 1 0 2 1 0 0 0 0 0
##  [963] 1 0 0 0 1 3 0 0 0 1 1 0 1 2 1 1 2 2 1 1 1 3 0 1 1 4 0 0 1 2 2 0 3 2 0 0 2
## [1000] 1
mean(p)
## [1] 1.029
var(p)
## [1] 0.9891481
hist(p, xlab= "Distribución de Poisson", ylab="Frecuencia")