Introduccion a la probabilidad

La probabilidad es el lenguaje matematico para cuantificar la incertidumbre - Wassernman

Conceptos fundamentales de la probabilidad

1.- Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad

2.- Interpretacion frecuencista de la probabilidad

3.- Probabilidad condicional y su relacion con independencia

4.- La regla de Boyes

Espacio de resultados y eventos

Es el espacio de resultados es el conjunto de posibles resultados de un experimento aleatorio.

Ejemplo: Si lanzamos una moneda 2 veces, entonces

\[ \Omega= \{AA, SS, AS, SA\} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayusculas. E.g que el primer lanzamiento resulte aguila.

\[ A=\{AA,AS\} \]

Eventos equiprobables

La probabilidad se puede ver como una proporcion de una parte con respecto a un todo

Si en ingenieria quimica tenemos 1000 estudiantes, de los cuales

  • 300 son hombres
  • 700 son mujeres

Si elegimos un estudiante al azar de ingenieria quimica ¿Cual es la probabilidad de que sea hombre?

\[ P = \frac{300}{700+300} = 0.3 \] La probabilidad entonces es de 0.3

Esto se concibe de la siguiente forma:

\[ Probabilidad = Eventos favorables/Eventos Posibles \] ## Interpretacion frecuentista de la probabilidad

Las probabilidades se entienden como una aproximacion matematica de frecuencias relativas cuando la frecuencia total tiende a cero.

Supongamos que lanzamos una moneda 10 veces y obtenemos lo siguiente

set.seed(123)
lanzamientos_10 <- sample (c("A","S"), 10, replace = TRUE)
lanzamientos_10
##  [1] "A" "A" "A" "S" "A" "S" "S" "S" "A" "A"
  • Ahora vamos a calcular la secuencia de frecuencias relativas de Aguila
cumsum(lanzamientos_10 == "A")
##  [1] 1 2 3 3 4 4 4 4 5 6
  • Frecuencia relativa
round(cumsum(lanzamientos_10 == "A")/1:10,2)
##  [1] 1.00 1.00 1.00 0.75 0.80 0.67 0.57 0.50 0.56 0.60

**Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

Esto se consibe de la siguiente forma

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]

Por lo que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y dos mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la funcion para calcular las combinaciones es choose(n,r)

choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad.

Las probabilidades se entienden como una aproximacion matematica de recuencias relativas cuando la frecuencia total tiende a 0.

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones

Supongamos que lanzamos la moneda 10 veces y obtenemos lo siguiente.

lanzamientos_10 <- sample(c("A", "S"),10, replace=TRUE)
lanzamientos_10
##  [1] "S" "S" "S" "A" "S" "A" "S" "A" "A" "A"

Ahora vamos a calcular la secuencia de frecuencias relativas de aguila.

cumsum(lanzamientos_10== "A")## Suma acumulada de aguila
##  [1] 0 0 0 1 1 2 2 3 4 5

Dividiendo

round(cumsum(lanzamientos_10== "A")/1:10,2)
##  [1] 0.00 0.00 0.00 0.25 0.20 0.33 0.29 0.38 0.44 0.50

Distribuciones de probabiliad

Funciones en R En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:

  • Distribución Alias
  • Distribución binomial binom
  • Distribución de Poisson pois
  • Distribución normal norm
  • Distribución exponencial exp
  • Distribución t de Student t
  • Distribución Chi2 chisq
  • Distribución F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{observación}\\ \hline p & \text {probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end {array} \] Distribución Exponencial

curve(dexp(x), from = 0, to = 10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10.

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 1 1 1 1 1 1 1 0 0 1 1 1 1 0 0 1 0 0 0
#Genera 20 observaciones con distribución B(1, 0.5)

Contando éxitos vs Fracasos

table(x)
## x
##  0  1 
##  7 13

E.g. Distribución normal Si \(X\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5, se calcula en R de esta forma:

pnorm(3.5, mean = 3, sd = 0.5)
## [1] 0.8413447
#p probabilidad, norm de distribución normal. sd desviación estándar

*Para calcular el cuantil 0.7 de una variable aleatoria normal estándar Z, es decir, un valor X tal que

qnorm(0.7)
## [1] 0.5244005

*Para calcular el mismo cuantil, pero para una variable aleatoria normal de media 0 y una desviación tipica/sd 0.5

qnorm(0.7, sd = 0.5)
## [1] 0.2622003

El valor \((z_\alpha \)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x)
x <-rnorm(100, mean = 10, sd=1)
x
##   [1]  8.932176  9.782025  8.973996  9.271109  9.374961  8.313307 10.837787
##   [8] 10.153373  8.861863 11.253815 10.426464  9.704929 10.895126 10.878133
##  [15] 10.821581 10.688640 10.553918  9.938088  9.694037  9.619529  9.305293
##  [22]  9.792083  8.734604 12.168956 11.207962  8.876891  9.597115  9.533345
##  [29] 10.779965  9.916631 10.253319  9.971453  9.957130 11.368602  9.774229
##  [36] 11.516471  8.451247 10.584614 10.123854 10.215942 10.379639  9.497677
##  [43]  9.666793  8.981425  8.928209 10.303529 10.448210 10.053004 10.922267
##  [50] 12.050085  9.508969  7.690831 11.005739  9.290799  9.311991 11.025571
##  [57]  9.715227  8.779282 10.181303  9.861109 10.005764 10.385280  9.629340
##  [64] 10.644377  9.779513 10.331782 11.096839 10.435181  9.674068 11.148808
##  [71] 10.993504 10.548397 10.238732  9.372094 11.360652  9.399740 12.187333
##  [78] 11.532611  9.764300  8.973579  9.289593 10.256884  9.753308  9.652457
##  [85]  9.048381  9.954972  9.215096  8.332058  9.619773 10.918997  9.424653
##  [92] 10.607964  8.382117  9.944438 10.519407 10.301153 10.105676  9.359294
##  [99]  9.150296  8.975871
  • Para estimar el promedio de x
mean(x)
## [1] 9.990205
  • Histograma de frecuencias
hist(x)

  • Gráfico de cajas y bigotes
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x,freq = FALSE)
#Freq = FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean = 10, sd = 1), from = 7, to = 13, add = TRUE) 

#densidad normal