Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. -Wasserman
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleaorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \} \] Un evento es un subconjunto de un espacio muestral, los eventos usualmente se denotan por mayusculas.
e.g. Que el primer lanzamiento resulte Aguila.
\[ A=\{AA, AS\} \] ## Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing.Quimica hay 300 estudiantes que son Hombres y 700 Mujeres, la proporcion de hombre es:
\[ \frac{300}{700+300} =0.3 \]
Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidas entonces la probabilidad del evento A es el numero de resultados en A dividido entre el numero total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
e.g. Combinaciones
Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres, si la seleccion es aletortia, ¿Cual es la probabilidad de que el comite este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comites, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra oarte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comites que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es :
\[\frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la funcion para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602
Una frecuencia relativa es una proporcion que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesion de observaciones
lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE)
lanzamientos_10
## [1] "A" "A" "S" "A" "S" "S" "A" "S" "A" "A"
Podemos calcular las secuencias de frecuencias relativas de Aguila:
cumsum(lanzamientos_10 == "A") # suma acumulada de águilas
## [1] 1 2 2 3 3 3 4 4 5 6
Dividiendo
round (cumsum(lanzamientos_10 == "A") / 1:10, 2)
## [1] 1.00 1.00 0.67 0.75 0.60 0.50 0.57 0.50 0.56 0.60
**Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:
\[ \begin{array}{1|1|1|c} \text{Funcion} & \text{significado} & \text{Uso}& \text{Observacion}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantines (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades} & \text{Solo uso grafico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios segun una distribucion especifica} & \text{---}\\ \hline \end{array} \] Distribucion Exponencial
curve(dexp(x), from=0, to=10)
#representa la densidad de una exponencial de media 1 entre 0 y 10
Distribucion binomial
x <- rbinom(20, 1, 0.5)
#Genera 20 observaciones con distribucion B(1,0.5)
Contando exitos vs fracasos
table(x)
## x
## 0 1
## 12 8
e.g. Distribucion normal
si \(x\) es una variable aleatoria, con distribucion normal de media 3, y sudesviacion tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
*para calcular el cuantil 0.7 de de una v.a. normal estandar z, es decir, un valor x tal que
qnorm(0.7)
## [1] 0.5244005
*para calcular el mismo cuantil, pero para una v.a normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha \) que aparece en muchas de las formulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1 )
x
## [1] 10.284142 8.822508 8.644902 10.372198 8.896386 10.383862 9.741910
## [8] 11.116790 11.759980 10.348361 11.530481 8.232545 11.242265 10.367801
## [15] 9.903260 9.699690 9.851187 8.440319 9.654781 10.008829 9.668960
## [22] 10.188657 9.012414 9.293007 9.694922 10.092296 11.310482 9.336730
## [29] 8.306509 7.978507 9.367024 11.691603 9.511366 8.314637 11.058222
## [36] 10.431774 8.831062 11.294909 10.844448 8.759936 9.715984 11.414459
## [43] 9.937764 10.802271 9.936508 9.244339 10.359958 10.578903 10.200724
## [50] 9.908590 11.237907 7.945002 9.597836 10.284503 8.453757 10.529553
## [57] 10.543151 11.699463 10.499184 9.796293 9.006388 10.597972 10.315366
## [64] 9.852745 9.327179 9.791343 9.044928 9.869950 9.164162 12.612976
## [71] 9.860479 8.356174 10.287726 10.180702 8.433589 10.815345 9.803643
## [78] 9.546024 10.165193 10.455367 10.950397 10.469826 8.362536 10.828899
## [85] 10.257918 9.715664 12.252393 8.700732 8.360466 9.434799 10.388409
## [92] 9.217008 10.595308 10.003249 9.244774 11.504539 9.140752 11.348927
## [99] 10.417098 10.156031
*Para calcular el promedio de x
mean(x)
## [1] 9.958128
*Histograma de frecuencia
hist(x)
*Grafico de cajas y bigote
boxplot(x)
*Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)