Introducción a la probabilidad

La probabilidad es el lenguaje matematico para cuantificar la insertidumbre - Wasserman

Conceptos fundamentales de probabilidad

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.

Un ejemplo seria: Si lanzamos una moneda 2 veces, entonces

\[ \Omega=\{AA,SS,AS,SA\} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan con mayusculas.

Ejemplo: Que el primer lanzamiento resulte Aguila.

\[ A=\{AA, AS\} \]

Eventos equiprobables

La probabilidad se puede ver como una proporcion de una parte con respecto a un todo

Ejemplo: Si en la carrera de ingenieria quimica hay 1000 estudiantes, y de estos 300 son hombre y 700 son mujeres

Si se elije un estudiante al azar de ingenieria quimica. Cual es la probabilidad de que sea hombre?

\[ \frac{300}{700+300}=0.3 \] Como el resultado es 0.3, entonces la probabilidad es de 30%

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

Ejemplo: Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y dos mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6} {3} \dbinom {9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]

y la funcion para calcular las combinaciones es choose(n,r)

choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad.

La probabilidades se entienden como una aproximacion matematica de frecuencias relativas cuando la frecuencia total tiende a cero.

Supongamos que lanzamos una moneda 10 veces y obtenemos lo siguiente:

lanzamientos_10<- sample(c("A","S"), 10, replace=TRUE)
lanzamientos_10
##  [1] "S" "A" "A" "A" "S" "A" "A" "A" "S" "A"
cumsum(lanzamientos_10=="A") 
##  [1] 0 1 2 3 3 4 5 6 6 7
round(cumsum(lanzamientos_10=="A")/1:10,2)
##  [1] 0.00 0.50 0.67 0.75 0.60 0.67 0.71 0.75 0.67 0.70

Distribuciones de probabilidad

Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

  • Distribución Alias
  • Distribución binomial binom
  • Distribución de Poisson pois
  • Distribución normal norm
  • Distribución exponencial exp
  • Distribución t de Student t
  • Distribución \(Chi^2\) chisq
  • Distribución F f

\[ \begin{array}{1|1|1|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cfd)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios ségun una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 0 1 1 0 0 1 0 1 0 1 1 0 0 1 1 1 1 0 1
#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
##  8 12

e.g. Distribución normal

si \(X\) es una variable aletoria, con distribución normal de media 3, y du desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
  • Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1 )
x
##   [1] 11.236053 11.739976 10.260607 10.013558 10.551361  9.826202 11.736525
##   [8] 10.416982 11.244127 10.468785  9.501489  9.884458  8.880046  8.370250
##  [15]  9.936037 10.617618 10.162357  9.025650 10.653471  8.483142 10.646575
##  [22]  9.527966 11.380810  9.489980  8.466690  9.771558  8.564040  9.642353
##  [29] 10.924985  8.266927  9.920760 10.165708 10.944889 10.974455  9.508995
##  [36]  9.598017 10.567349 11.450270  8.587837 11.133868 10.853785  9.354037
##  [43]  8.941737  8.794172  9.954273  9.241686  9.425385 10.767723 10.634572
##  [50] 10.119096 11.538874  7.879544  9.171850  9.058682  9.538910  9.041921
##  [57] 12.621852 11.670065 11.033863 10.010419  8.632174  8.170851  8.414902
##  [64]  9.344721 10.330699  9.022519  9.277822  9.277750  8.165086  9.303064
##  [71]  9.139056  9.392796 10.027166  9.962017  9.386831 10.102493  9.870083
##  [78]  7.964851 10.099195 11.382912  9.037005  9.496186 10.215121  8.433643
##  [85] 10.837031 10.157261  9.871944 11.853456  9.593552 11.362462 10.860371
##  [92] 10.136685  9.780093 10.568668  9.651677 10.116587 10.947391 11.677744
##  [99]  9.899817 10.794770
  • Para estimar el promedio de x
mean(x)
## [1] 9.947536
  • Histograma de frecuencias
hist(x)

  • Gráfico de cajas y bigote
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

1.- Si Z es una variable con distribución normal estándar, calcula P(−2.34<Z<4.78).

pnorm(4.78, mean = 0, sd = 1) - pnorm(-2.34, mean = 0, sd = 1)
## [1] 0.9903573

2.- Calcula el rango intercuartílico de una población normal estándar.

pob <- c(1,1,2,2,5,5,7,7,8,8,9,9)
s <- summary(pob)
s
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   6.000   5.333   8.000   9.000
rango <- as.numeric(substr(s[5],1,7)) - as.numeric(substr(s[2],1,7))
rango
## [1] 6

3.- Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

  • Primera vez
set.seed(1)
x <- rnorm(10, mean = 5, sd = 1)
x
##  [1] 4.373546 5.183643 4.164371 6.595281 5.329508 4.179532 5.487429 5.738325
##  [9] 5.575781 4.694612
mean(x)
## [1] 5.132203
  • Segunda vez
set.seed(2)
x <- rnorm(10, mean = 5, sd = 1)
x
##  [1] 4.103085 5.184849 6.587845 3.869624 4.919748 5.132420 5.707955 4.760302
##  [9] 6.984474 4.861213
mean(x)
## [1] 5.211152
  • Tercera vez
set.seed(3)
x <- rnorm(10, mean = 5, sd = 1)
x
##  [1] 4.038067 4.707474 5.258788 3.847868 5.195783 5.030124 5.085418 6.116610
##  [9] 3.781143 6.267369
mean(x)
## [1] 4.932864
  • Diferencias

En las 3 muestras hay pequeñas diferencias en su media muestral pero es una diferencia bastante pequeña en relación a la media poblacional que era de 5.

4.- Genera 1000 números con distribución de Poisson de parámetro λ=1. Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?

p <- rpois(n = 1000, lambda = 1)
p
##    [1] 0 0 0 0 0 2 1 2 1 2 1 1 0 1 0 0 2 0 1 0 0 2 0 1 1 0 0 0 0 2 0 0 2 4 2 2 1
##   [38] 0 0 0 2 0 2 0 2 0 2 1 0 0 2 2 2 3 1 1 0 0 2 2 2 1 1 0 3 2 0 1 1 3 0 0 1 2
##   [75] 2 0 0 0 0 1 2 1 0 1 1 0 0 1 0 0 0 0 0 0 2 1 2 1 0 1 1 2 2 0 1 1 1 1 2 0 0
##  [112] 1 0 0 2 1 0 0 1 1 1 0 1 2 2 0 1 2 1 0 2 0 2 0 1 0 0 0 1 0 3 1 0 2 2 2 2 0
##  [149] 2 1 1 0 1 2 0 1 1 2 0 1 0 0 0 0 0 0 2 0 0 0 1 2 0 1 1 1 2 2 1 0 1 2 0 1 2
##  [186] 1 1 1 2 0 1 1 1 0 0 3 0 0 1 1 0 2 1 1 0 1 3 0 0 0 0 1 1 1 1 2 1 0 1 1 0 1
##  [223] 1 0 1 0 0 4 2 1 0 0 1 1 0 1 0 1 2 3 2 3 1 1 3 1 0 0 1 0 0 1 3 3 0 0 0 0 0
##  [260] 0 0 0 0 1 0 1 1 5 2 1 1 1 0 1 0 1 3 2 1 1 0 0 4 1 1 1 2 1 2 4 1 0 1 1 0 3
##  [297] 0 2 4 1 0 0 2 0 2 1 3 2 3 3 2 1 2 0 0 3 2 0 2 0 1 0 0 1 1 1 0 0 0 2 2 0 4
##  [334] 2 0 1 0 2 0 3 1 0 0 2 1 0 1 1 0 0 0 0 0 0 2 2 4 0 0 0 0 0 0 0 2 1 2 1 4 0
##  [371] 0 2 1 5 1 0 0 2 0 1 0 2 1 1 2 0 0 0 0 1 3 2 0 3 3 1 0 1 0 1 0 0 0 2 2 1 0
##  [408] 0 2 1 0 0 1 1 3 1 3 2 1 2 1 1 3 1 0 1 2 1 0 0 4 1 1 1 1 2 2 0 1 2 0 1 1 0
##  [445] 1 1 0 1 0 2 1 0 0 0 0 1 1 1 1 1 1 2 2 4 1 0 2 0 2 0 2 1 1 1 1 2 1 2 4 1 0
##  [482] 0 2 0 1 1 0 0 3 2 1 0 0 1 0 2 1 1 0 1 3 2 2 1 0 0 0 1 1 0 0 0 0 2 1 1 1 0
##  [519] 2 2 1 0 1 3 0 0 2 2 0 0 1 3 1 0 1 2 2 1 0 1 1 1 1 2 0 1 1 1 3 1 0 2 3 3 1
##  [556] 0 2 2 0 3 2 4 0 2 0 0 1 2 2 0 1 4 0 0 2 2 1 2 2 2 0 1 2 2 0 0 0 0 0 1 6 2
##  [593] 0 2 1 0 1 2 0 1 1 0 2 1 2 0 0 0 0 0 1 0 1 1 0 0 1 0 1 1 0 0 2 2 1 0 1 0 4
##  [630] 1 1 0 0 0 1 1 1 0 0 2 0 2 0 2 1 3 0 2 2 1 3 1 1 0 3 1 1 1 0 2 1 2 4 2 2 1
##  [667] 1 0 1 1 1 1 1 1 3 3 1 4 1 1 0 4 1 1 1 1 1 1 1 2 1 1 0 0 3 1 1 0 1 0 2 1 1
##  [704] 0 0 3 0 0 2 2 4 3 0 2 1 0 3 2 1 0 2 1 0 2 0 0 1 0 0 1 2 0 0 0 0 0 1 1 4 1
##  [741] 0 1 0 0 0 0 0 0 1 1 1 2 0 1 0 0 0 1 0 1 1 1 0 0 1 1 1 0 2 0 0 2 0 0 0 2 1
##  [778] 3 1 0 4 1 2 0 1 2 1 0 1 1 2 2 4 1 1 1 3 2 3 1 0 0 0 0 0 3 1 1 1 2 0 1 3 1
##  [815] 0 0 1 0 0 1 2 3 1 4 1 0 1 0 1 0 0 0 0 2 1 2 3 3 0 2 1 1 0 0 2 1 3 0 0 0 1
##  [852] 1 1 0 1 0 1 1 0 0 1 0 1 1 2 2 0 1 2 1 0 2 0 0 0 0 2 1 4 0 1 1 0 1 1 0 0 1
##  [889] 2 4 0 2 1 1 1 0 5 1 1 1 1 2 1 3 0 1 0 0 4 0 1 1 0 1 2 1 3 1 2 2 2 1 1 0 0
##  [926] 1 1 1 3 2 0 0 2 0 0 1 0 5 0 2 1 0 3 1 2 1 2 0 2 1 0 2 3 1 0 1 0 1 1 2 3 2
##  [963] 0 1 1 0 3 0 0 1 2 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 2 1 0 0 0 1 1 0 1 0
## [1000] 2
  • Media
mean(p)
## [1] 1.02
  • varianza
var(p)
## [1] 1.106707

Los datos si se pareces a los valores teoricos.