U1A4

Introducción a la probabilidad

Probabilidad es considerado un lenguaje matemático para cuantificar la incertidumbre. Wasserman

Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, Etc.
Interpretación frecuentista de la probabilidad.
Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos.

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[ A=\{AA, AS\} \]

Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Química hay 300 hombres y 700 mujeres, la proporción de hombres es:

\[ \frac{300} {700+300} = 0.3 \]

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de prosibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]

Por lo que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado (es equiprobable)

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]

y la función para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)

## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide qué tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A","s"),10, replace = TRUE  )
lanzamientos_10

##  [1] "s" "A" "s" "s" "s" "A" "s" "s" "A" "A"

Podemos calcular las secuencias de frecuencias relativas de águila:

cumsum(lanzamientos_10 == "A") # suma acumulada de águilas

##  [1] 0 1 1 1 1 2 2 2 3 4

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)

##  [1] 0.00 0.50 0.33 0.25 0.20 0.33 0.29 0.25 0.33 0.40

##Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad de nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

Distribución Alias
Distribución binomial binom
Distribución de Poisson pois
Distribución normal norm
Distribución exponencial exp
Distribución t de Student t
Distribución \(\chi^2\) chisq
Distribución F f

\[ \begin{array}{l|l|l|c} \text{función} & \text{significado} & \text{uso}& \text{observación}\\ \hline p & \text {probability} & \text{Calcula probabilidades acumuladas (cfd)} & \text{---}\\ q & \text {quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text {density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text {random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x

##  [1] 0 0 0 0 0 1 0 1 1 1 1 1 0 0 0 1 1 0 1 0

#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)

## x
##  0  1 
## 11  9

e.g. Distribución normal

si \(x\) es una variable aleatoria, con distribución normal de media 3 y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de la siguiente manera:

pnorm(3.5, mean=3, sd=0.5)

## [1] 0.8413447

Para calcular el cuantil 0.7 de una v.a. normal estándar z, es decir, un valor x tal que:

qnorm(0.7)

## [1] 0.5244005

Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y una desviación estándar 0.5

qnorm(0.7, sd=0.5)

## [1] 0.2622003

El valor \(\( z_\alpha \)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)

## [1] 1.959964

Para operar una muestra de tamaño de 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):

x <- rnorm(100, mean=10, sd=1 )
x

##   [1] 10.030435  8.481747 11.235442  8.865009  8.159628 10.470341  9.404551
##   [8]  9.212782  9.066070  8.386705 11.139061  9.163228  9.930495 10.148506
##  [15]  8.869989 10.869090 10.411602  8.654477  9.094874  8.983200 10.243928
##  [22] 11.586052 11.252572  9.210169 11.609203  9.865306  9.947768 10.409929
##  [29] 11.788392 13.279131 10.591171  9.888774  9.971541  8.737824  9.971878
##  [36] 10.274351  9.875490  9.231884 11.055815 10.593971  8.029545  9.234819
##  [43]  8.982414 10.474174  9.747012 10.790728 11.743829  9.057579  8.739541
##  [50]  9.503860  9.191480  8.964236  9.598142 10.232680  9.890893  8.469748
##  [57]  9.978076 10.024855 11.436027 10.261937  9.924620 10.403280 10.623680
##  [64] 10.282182 10.254019 12.877294  9.449997  9.949358 10.090469 10.406147
##  [71]  9.899727  9.970358  8.969263  8.752235 11.196535  9.303368  9.341894
##  [78] 10.092785 10.032040 10.074908 10.361177  9.159164 11.396957 10.182002
##  [85]  9.321118  8.991016 10.793549  9.814517  8.394421 11.497260  9.463934
##  [92] 10.050952  9.857390  9.882852 10.241485 10.714019  9.395193 10.917194
##  [99]  8.205754 10.862938

Para estimar el promedio de x:

mean(x)

## [1] 9.95711

*Histograma de frecuencias:

hist(x)

Gráfico de cajas y bigote

boxplot(x)

Histograma de la muestra normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:

hist(x, freq=FALSE) # Freq=FALSE para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

Si \(z\) es una variable con distribución normal estandar, calcula \(\mathbb{P}(-2,34 < z z 4.78)\)

P= pnorm(4.78, mean = 0, sd = 1) - (pnorm(-2.34, mean = 0, sd = 1))
P

## [1] 0.9903573

\[ P= {0.9903573} \]

Calcule el rango intercuartílico de una población normal estándar.

f <- c(1,2,3,4,5,5,5,5,6,6,7,7,8,8)
summary(f)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   4.250   5.000   5.143   6.750   8.000

\[ IQR= {3rd Qu} - {1st Qu} \]

\[ IQR= {6.750 - 4.250} = 2.5 \]

Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repetir el ejercicio 3 veces y anota las diferencias.

x <- rnorm(10, mean=3, sd=1)
x

##  [1] 4.430526 3.365864 3.699781 2.069639 3.912591 2.673040 3.377198 2.978510
##  [9] 3.545395 3.707892

x <- rnorm(10, mean=3, sd=1)
x

##  [1] 4.513920 3.924007 2.775812 2.650425 3.019133 3.971523 1.360167 2.680909
##  [9] 3.102802 1.849412

x <- rnorm(10, mean=3, sd=1)
x

##  [1] 3.645616 4.166837 4.628204 3.467815 2.137667 3.673301 2.113491 2.451080
##  [9] 3.756483 2.024799

La diferencia de realizar 3 veces el ejercicio es que en cada chunk nos arroja distintos eventos aleatorios.

Generar 1000 números con distribución de Poisson de parámetro \(\lambda = 1\). Y representar el gráfico de barras de los números obtenidos. calcular media y varianza de los npumeros obtenidos. ¿Se parecen a los valores teóricos?.

P <- rpois(1000,1)
P

##    [1] 0 1 1 0 1 0 1 0 1 1 0 1 0 1 2 0 2 1 2 1 0 2 0 1 1 0 1 1 1 0 1 4 1 1 1 0 0
##   [38] 1 1 2 4 2 0 1 1 0 1 1 0 2 3 2 2 0 0 0 2 3 2 1 2 1 0 2 1 0 1 1 1 1 1 0 0 2
##   [75] 0 1 1 0 1 0 0 0 0 1 0 0 4 0 1 1 0 2 0 1 2 0 1 0 0 2 2 1 3 1 1 2 1 0 1 1 2
##  [112] 0 1 1 3 1 2 0 1 1 0 1 1 0 3 0 0 0 0 1 1 0 1 0 1 3 1 4 1 0 1 0 2 1 0 1 1 1
##  [149] 3 0 0 0 0 1 0 2 0 3 2 1 0 0 1 1 1 0 1 0 0 1 2 0 0 1 0 1 0 1 1 1 0 1 0 1 2
##  [186] 1 0 2 2 2 1 0 2 1 0 0 0 0 1 2 1 3 0 0 1 0 0 0 2 0 0 0 0 0 0 0 0 1 0 1 0 1
##  [223] 1 0 0 0 2 0 0 1 2 1 2 1 0 1 0 2 1 0 1 2 1 0 0 0 0 2 2 0 3 1 0 1 0 1 2 1 1
##  [260] 1 0 0 2 1 1 0 0 0 0 3 1 1 0 0 1 0 1 2 3 0 1 0 3 0 1 2 3 1 1 1 1 4 2 0 4 0
##  [297] 1 2 1 0 0 0 1 0 3 0 1 1 1 1 2 1 1 2 0 0 1 0 0 0 1 0 1 3 0 1 2 1 3 3 2 0 2
##  [334] 2 1 2 1 2 2 1 0 0 1 1 0 1 0 1 0 0 1 2 2 2 2 0 0 0 3 3 1 1 0 1 1 1 0 4 2 1
##  [371] 1 2 1 0 1 1 0 1 1 1 1 2 3 2 1 0 1 1 0 0 2 0 2 0 1 1 1 3 2 2 2 1 2 1 1 0 4
##  [408] 0 3 2 0 0 2 0 2 2 0 1 1 3 1 2 3 0 2 0 0 1 1 0 1 0 1 0 0 2 0 2 1 1 0 1 1 1
##  [445] 1 0 3 1 2 1 1 0 0 1 1 1 0 0 2 2 0 1 2 2 1 2 1 0 0 0 2 1 0 1 2 1 2 2 2 1 2
##  [482] 2 1 1 1 0 0 0 1 2 0 1 0 0 0 3 0 1 0 0 0 2 2 2 0 0 0 2 0 0 2 0 0 1 1 2 0 0
##  [519] 0 0 0 0 2 1 2 1 0 0 1 0 1 1 1 1 3 1 3 1 2 0 3 2 1 1 1 1 1 3 1 1 0 1 0 1 0
##  [556] 2 0 2 1 2 1 2 2 0 0 0 1 0 1 0 0 1 0 0 2 3 0 0 3 0 1 1 0 2 1 3 0 1 3 1 2 3
##  [593] 1 2 0 1 0 1 1 0 2 3 1 0 0 2 0 0 0 3 0 1 2 1 0 3 1 0 1 0 0 1 0 1 0 1 1 3 2
##  [630] 0 0 1 3 2 0 1 2 0 0 1 2 2 0 0 3 3 1 2 0 2 1 0 0 1 0 2 2 1 1 0 0 1 1 2 2 1
##  [667] 0 1 2 0 0 3 0 0 1 0 2 1 0 1 1 3 0 0 0 0 1 2 0 0 2 1 1 1 4 1 0 2 1 0 0 2 2
##  [704] 0 0 1 2 0 2 0 2 0 0 1 1 0 0 2 2 1 0 1 2 1 0 2 0 2 1 1 5 0 0 0 1 1 0 2 1 1
##  [741] 1 2 1 1 0 2 0 2 0 0 2 2 1 2 0 2 1 0 0 1 1 0 0 0 0 0 2 0 0 1 1 2 3 1 6 0 4
##  [778] 1 0 2 0 1 0 0 1 0 3 1 2 3 1 1 1 1 0 3 0 1 0 2 0 0 0 2 0 1 0 1 1 0 1 1 3 2
##  [815] 1 0 0 0 2 0 1 1 3 1 1 0 4 2 0 1 0 1 1 0 1 1 3 3 2 2 0 1 1 0 1 0 1 2 0 1 2
##  [852] 2 3 3 0 1 1 1 1 0 4 0 1 0 3 1 0 1 1 0 2 2 0 1 0 1 0 2 2 0 3 0 3 0 1 0 1 0
##  [889] 0 1 0 1 0 3 2 2 1 0 0 0 3 2 0 0 0 0 3 0 1 1 3 0 0 0 3 2 1 2 2 0 0 1 1 2 0
##  [926] 3 1 0 1 2 1 4 4 1 0 0 4 1 0 2 0 1 0 2 0 0 3 2 1 2 0 0 2 0 1 1 0 0 2 0 2 1
##  [963] 1 0 2 1 0 2 2 1 1 0 1 0 0 1 2 1 0 2 1 1 3 1 1 1 1 0 1 1 0 1 0 1 2 0 0 3 3
## [1000] 1

Media de P

mean(P)

## [1] 1

Varianza

var(P)

## [1] 1.009009

Histograma de frecuencias

hist(P, xlab= "Distribución de Poisson", ylab = "Frecuencia", main = paste ("Histograma de frecuencias"))