Introducción a la probabilidad

Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. -Wasserman

  1. Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad, Etc.
  2. Interpretacion frecuentista de la probabilidad
  3. Probabilidad condicional y su relacion con la independencia

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleaorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \} \] Un evento es un subconjunto de un espacio muestral, los eventos usualmente se denotan por mayusculas.

e.g. Que el primer lanzamiento resulte Aguila.

\[ A=\{AA, AS\} \] ## Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing.Quimica hay 300 estudiantes que son Hombres y 700 Mujeres, la proporcion de hombre es:

\[ \frac{300}{700+300} =0.3 \]

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidas entonces la probabilidad del evento A es el numero de resultados en A dividido entre el numero total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

e.g. Combinaciones

Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres, si la seleccion es aletortia, ¿Cual es la probabilidad de que el comite este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comites, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra oarte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comites que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es :

\[\frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la funcion para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602

Interpretacion frecuentista de la probabilidad

Una frecuencia relativa es una proporcion que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesion de observaciones

lanzamientos_10 <-  sample(c("A","S"),10, replace = TRUE)
lanzamientos_10
##  [1] "A" "A" "S" "A" "S" "S" "A" "S" "A" "A"

Podemos calcular las secuencias de frecuencias relativas de Aguila:

cumsum(lanzamientos_10 == "A") # suma acumulada de águilas
##  [1] 1 2 2 3 3 3 4 4 5 6

Dividiendo

round (cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 1.00 1.00 0.67 0.75 0.60 0.50 0.57 0.50 0.56 0.60

Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:

\[ \begin{array}{1|1|1|c} \text{Funcion} & \text{significado} & \text{Uso}& \text{Observacion}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantines (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades} & \text{Solo uso grafico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios segun una distribucion especifica} & \text{---}\\ \hline \end{array} \] Distribucion Exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribucion binomial

x <- rbinom(20, 1, 0.5)
#Genera 20 observaciones con distribucion B(1,0.5)

Contando exitos vs fracasos

table(x)
## x
##  0  1 
## 12  8

e.g. Distribucion normal

si \(x\) es una variable aleatoria, con distribucion normal de media 3, y sudesviacion tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

*para calcular el cuantil 0.7 de de una v.a. normal estandar z, es decir, un valor x tal que

qnorm(0.7)
## [1] 0.5244005

*para calcular el mismo cuantil, pero para una v.a normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha \) que aparece en muchas de las formulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1 )
x
##   [1] 10.284142  8.822508  8.644902 10.372198  8.896386 10.383862  9.741910
##   [8] 11.116790 11.759980 10.348361 11.530481  8.232545 11.242265 10.367801
##  [15]  9.903260  9.699690  9.851187  8.440319  9.654781 10.008829  9.668960
##  [22] 10.188657  9.012414  9.293007  9.694922 10.092296 11.310482  9.336730
##  [29]  8.306509  7.978507  9.367024 11.691603  9.511366  8.314637 11.058222
##  [36] 10.431774  8.831062 11.294909 10.844448  8.759936  9.715984 11.414459
##  [43]  9.937764 10.802271  9.936508  9.244339 10.359958 10.578903 10.200724
##  [50]  9.908590 11.237907  7.945002  9.597836 10.284503  8.453757 10.529553
##  [57] 10.543151 11.699463 10.499184  9.796293  9.006388 10.597972 10.315366
##  [64]  9.852745  9.327179  9.791343  9.044928  9.869950  9.164162 12.612976
##  [71]  9.860479  8.356174 10.287726 10.180702  8.433589 10.815345  9.803643
##  [78]  9.546024 10.165193 10.455367 10.950397 10.469826  8.362536 10.828899
##  [85] 10.257918  9.715664 12.252393  8.700732  8.360466  9.434799 10.388409
##  [92]  9.217008 10.595308 10.003249  9.244774 11.504539  9.140752 11.348927
##  [99] 10.417098 10.156031

*Para calcular el promedio de x

mean(x)
## [1] 9.958128

*Histograma de frecuencia

hist(x)

*Grafico de cajas y bigote

boxplot(x)

*Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:

hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)