" Probabilidad es el lenguaje matemático para cuantificarla incertidumbre. Wasserman
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Sí lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS\}\] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas. e.g. Que el primer lanzamiento resulte ágila. \[ A = \{AA, AS\}\] ## Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g En la carrera de Ing. Química hay 300 estudiantes que son hombres y 700 que son mujeres, la proporción de hombres es:
\[ \frac{300}{700+300}= 0.3\] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el nímero de resultados en A dividido entre el número entre el número total de posibles resultados.
\[ P(A)=\frac{\#(A)}{\#(\Omega)}\] Por o que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionando de un grupo de 6 hombres y 9 mujeres.Si la selección es aleatoriam ¿cuál es la probabilidad de que el comité este conformadopor 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada un tiene la misma probabilidad de ser seleccionado.
Por otra parte hay 9 mujeres de las cuales se van a seleccionar 2 \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2mujeres, porlo tanto,la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{ \dbinom{15}{5}} \] y la función para calcularlas combinaciones es choos (n, r)
choose (6, 3) * choose(9, 2) / choose (15, 5)
## [1] 0.2397602
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente,ocurre una u otracosa en una sucesión de observaciones
lanzamientos_10 <- sample(c("A","S"),10,replace = TRUE)
lanzamientos_10
## [1] "S" "A" "S" "S" "S" "S" "A" "S" "A" "A"
Podemos calcular la sacuencia defrecuencias relativas de águila:
cumsum(lanzamientos_10 == "A")
## [1] 0 1 1 1 1 1 2 2 3 4
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
## [1] 0.00 0.50 0.33 0.25 0.20 0.17 0.29 0.25 0.33 0.40
**Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias, laspalabras clave para las distribuciones más importantes son:
\[ \begin{array}{l|l|l|c} \text{Funcion} & \text {Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text {probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text {quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text {density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text {random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial
curve(dexp(x),from=0, to=10)
Distribución binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 0 0 0 1 0 0 0 1 1 1 0 1 0 1 1 0 1 0 1 1
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 10 10
e.g. Distribución normal
si \(X\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm (1-alfa) Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100,mean=10, sd=1)
x
## [1] 9.816842 11.046719 10.028568 11.631133 9.885923 11.153843 11.643541
## [8] 8.394551 7.912708 10.354959 11.958719 10.342852 11.079587 9.902916
## [15] 9.121021 10.243132 10.452803 7.569886 10.405958 9.072201 10.219047
## [22] 9.298937 10.175464 10.150157 8.761367 10.173711 10.338325 8.754567
## [29] 9.826254 11.157261 9.559502 9.360055 9.543119 9.493887 9.204524
## [36] 12.106631 10.571474 8.870731 9.247499 10.699251 8.079191 11.474747
## [43] 9.691192 10.690228 9.171171 11.541982 10.783213 10.848228 11.170013
## [50] 10.979283 10.328709 10.317487 11.883681 9.682246 8.419436 12.200536
## [57] 8.825656 12.466257 9.616726 10.684903 9.332231 10.830926 8.794271
## [64] 11.018576 10.152264 8.491661 7.949221 10.181874 9.664808 10.571737
## [71] 12.035618 10.970331 10.286708 8.686419 10.641104 10.038868 9.863626
## [78] 9.525229 10.018260 10.420262 11.285869 9.711912 11.452093 9.301557
## [85] 10.210625 9.919066 9.001459 11.458007 9.753909 9.561922 10.460618
## [92] 11.715103 10.125276 8.709920 11.860307 9.733304 11.051548 9.908321
## [99] 11.192549 10.893995
mean(x)
## [1] 10.15166
hist(x)
boxplot(x)
hist(x, freq=FALSE) #freq=FALSE para que el area del histograma sea 1
curve(dnorm(x,mean=10,sd=1),from=7, to=13,add=TRUE)
z <- (pnorm(4.78) - pnorm(-2.34) )
z
## [1] 0.9903573
b <- c(1,2,2,2,2,3,4,5,8,8,8,9,10)
summary(b)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.000 4.000 4.923 8.000 10.000
\(Intercuatrílico= {8-2}=5\)
La media muestral se caracteriza por que se calcula a partir de la media aritmética de un conjunto de valores de una variable aleatoria, mientras que la media poblacional es un valor esperado de una variable aleatoria
A continuación podemos ver que las medias poblacionales se acercan con diferencia de algunas cantidades a las medias muestrales,lo que nos dice que hace falta aumentar la media muestral para poder acercarse lo suficiente a la media poblacional
q <- rnorm(10,mean=5,sd=1)
q
## [1] 4.837564 4.619731 4.625267 4.728952 5.343002 5.979643 4.074847 4.079596
## [9] 7.296684 4.101913
mean(q)
## [1] 4.96872
w <- rnorm(10,mean=5,sd=1)
w
## [1] 5.562000 5.925796 5.552432 5.298812 4.799925 3.972664 5.769471 3.689592
## [9] 5.856691 5.057158
e <- rnorm(10,mean=5,sd=1)
e
## [1] 5.567339 4.487988 4.843809 4.324363 5.040889 4.268189 4.584242 4.869650
## [9] 5.542610 3.838009
Si, los valores se acercan a lambda
P <- rpois(1000,1)
hist(P)
mean(P)
## [1] 0.996
var(P)
## [1] 1.069053
qt(0.05, df = 3)
## [1] -2.353363
qt(0.01, df = 3)
## [1] -4.540703