Probabilidad es el lenguaje matemático para cuantificar incertidumbre. - Wasserman
Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuentista de probabilidad.
Probabilidad condicional y su relación con independencia.
La regla de Bayes.
El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \} \]
Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.
e.g. Que el primer lanzamiento resulte águila
\[ A = \{AA, AS\} \]
La probabilidad se puede ver como una extensóon de la idea de proporción, o cociente de una parte con respecto a un todo. e.g.En la carrera de Ing. Química hay 300 hombres y 700 mujeres, la proporción de hombres es:
\[ \frac{300}{700+300}=0.3\ \]
Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]
Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformados por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
y la función para calcular las combinaciones es choose (n, r)
choose (6, 3) * choose(9, 2) / choose (15, 5)
## [1] 0.2397602
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A", "s"),10, replace=TRUE)
lanzamientos_10
## [1] "A" "s" "s" "s" "s" "A" "s" "A" "A" "s"
Podemos calcular la secuencia de frecuencias relativas de águila :
cumsum(lanzamientos_10 == "A") #suma acumulada de águilas
## [1] 1 1 1 1 1 2 2 3 4 4
Dividiendo
round(cumsum(lanzamientos_10== "A") / 1:10, 2 )
## [1] 1.00 0.50 0.33 0.25 0.20 0.33 0.29 0.38 0.44 0.40
**Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alías. Las palabras claves para las distribuciones mas importantes son:
Distribución Alias Distribución normal norm Distribución binomial binom Distribución Poisson pois Distribución exponencial exp Distribución t de student t Distribución chi2 chisq Distribución F f
\[ \begin{array}{l|l|l|c} \text{Función} & \text{significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
Distribución Exponencial
curve(dexp(x), from=0, to=10)
#Representa la densidad de una exponencial de media 1 entre 0 y 10
Distribución binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 0 0 1 1 0 0 0 0 0 1 0 1 0 0 1 1 1 0 0 1
#Genera 20 observaciones con distribución B(1, 0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 12 8
e.g.Distribución normal
si \(X\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1 )
x
## [1] 9.206263 10.647468 10.109602 9.498597 9.434486 8.757725 10.545812
## [8] 10.140030 9.460769 11.328071 11.094518 9.216937 9.540652 8.437386
## [15] 11.246871 10.851071 9.023265 8.824122 9.618180 10.574274 10.808992
## [22] 10.516961 9.714182 10.355303 10.757718 10.427881 10.623870 9.863813
## [29] 8.551889 9.751109 11.509669 12.487779 11.706054 9.147677 10.925586
## [36] 10.046181 11.180372 13.237240 10.603484 10.248338 9.510378 9.608266
## [43] 9.660577 8.886118 9.628253 7.846279 9.611040 8.659768 8.850952
## [50] 8.834433 9.678146 9.532580 9.608724 10.775303 8.591530 11.693711
## [57] 10.130095 10.825722 10.665389 11.014298 10.771862 10.199908 11.738345
## [64] 9.405045 9.850826 10.421238 11.102943 10.071115 9.988552 8.581863
## [71] 9.811777 11.444418 10.342189 10.718767 10.609133 9.630139 8.603164
## [78] 9.509648 7.874375 7.273044 9.476525 10.534798 10.822238 9.033515
## [85] 10.281988 11.098156 9.943374 10.501226 11.306949 10.436911 9.928815
## [92] 9.482341 12.726501 8.970832 9.212127 9.073287 9.220978 11.732758
## [99] 11.754097 10.421906
mean(x)
## [1] 10.07539
hist(x)
boxplot(x)
hist(x, freq=FALSE) #Freq=False, para que el histrogrma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
P= pnorm(4.78)- pnorm(-2.34)
P
## [1] 0.9903573
\[ \mathbb{P}=0.9903573 \]
x= rnorm(15)
x
## [1] 1.5572881 -3.0424869 -1.1094399 0.5366418 -0.6512293 -0.2889412
## [7] -1.1736765 -0.9258118 0.9165144 -1.5756711 -0.4338222 0.2753777
## [13] 0.1855132 1.1312995 0.5632628
IQR(x)
## [1] 1.567578
El rango intercuartílico de una población normal estándar, en el cual se calcula mediante una diferencia de quantiles.
a <- rnorm (10, mean=3, sd=1)
a
## [1] 4.592642 2.638443 3.714814 3.243854 1.909975 1.572234 4.032073 3.084341
## [9] 4.524455 3.496443
b <- rnorm (10, mean=3, sd=1)
b
## [1] 3.093148 2.023226 1.749150 4.742704 4.169451 3.189797 2.705662 3.394517
## [9] 1.434267 3.993103
c <- rnorm (10, mean=3, sd=1)
c
## [1] 3.780590 1.969201 3.174962 1.969187 3.230067 5.270841 2.392983 2.501825
## [9] 2.980775 2.598761
Podemos observar que generamos una muestra de tamaño 10 con una media igual a 3 y una desviación estándar igual a 1. Pero podemos encontrar diferencias entre a, b y c. a. Sus valores van de 2.1 a 4.9 b. Sus valores van de 1.4 a 4.5 c. Sus valores van de 1.5 a 4.3 Los valores obtenidos son distintos.
T <- rpois(1000, 1)
T
## [1] 1 0 1 1 1 0 1 1 2 0 0 0 0 1 4 2 3 1 0 2 1 0 1 4 1 1 2 0 0 0 1 0 2 1 2 1 0
## [38] 2 2 3 0 2 0 3 0 1 0 1 2 4 3 0 0 0 2 1 2 1 1 1 1 0 1 1 1 1 0 2 0 1 0 3 1 0
## [75] 1 1 1 0 1 1 2 0 2 0 1 4 1 0 1 0 1 1 3 1 0 2 1 2 3 0 0 1 0 1 1 0 0 1 3 2 1
## [112] 0 2 0 0 0 1 1 1 2 0 0 1 0 3 2 0 0 0 1 0 2 2 0 1 1 0 0 1 2 0 0 2 1 0 1 0 1
## [149] 2 1 0 0 0 4 0 3 1 1 1 1 0 0 0 2 0 0 2 2 1 0 2 1 2 0 0 1 0 1 1 2 1 1 2 1 1
## [186] 0 1 0 3 0 2 0 1 0 0 0 0 0 3 1 0 0 1 2 0 2 2 0 0 1 1 1 2 1 2 2 1 1 2 1 2 0
## [223] 0 1 2 1 0 1 0 2 0 1 1 2 0 1 2 3 1 0 0 3 0 0 0 0 4 0 0 1 1 1 3 0 2 0 0 0 0
## [260] 0 1 3 2 1 2 2 1 0 2 1 3 0 2 0 1 0 1 1 0 0 2 1 0 0 1 3 1 1 4 0 3 2 0 0 1 1
## [297] 0 0 0 1 0 2 3 1 0 2 1 0 1 2 0 0 2 1 1 2 0 2 3 1 2 2 3 1 1 0 0 1 1 1 2 0 1
## [334] 1 1 1 2 0 1 1 1 1 0 2 0 1 0 1 0 1 1 2 0 1 2 1 1 0 1 0 2 0 1 1 1 0 3 1 0 3
## [371] 1 0 3 0 1 2 2 1 1 0 3 2 0 0 0 1 1 1 2 0 2 1 0 0 1 0 0 1 1 0 2 1 0 1 1 0 1
## [408] 2 2 4 1 0 2 0 2 0 1 3 1 0 2 1 2 2 1 2 0 1 0 0 1 2 1 2 1 0 0 1 1 2 1 2 1 1
## [445] 2 0 1 3 0 1 0 0 1 0 2 1 0 1 1 2 1 1 0 2 0 1 1 1 1 0 2 1 1 1 0 0 1 0 0 0 0
## [482] 4 0 1 1 0 0 1 1 1 2 1 0 1 1 1 1 1 2 0 1 1 1 0 2 2 1 0 1 3 0 0 2 0 2 1 0 2
## [519] 0 0 0 0 0 1 4 1 2 1 1 1 2 1 1 1 1 2 1 0 2 1 1 2 2 0 1 0 2 0 1 0 0 1 1 2 1
## [556] 2 1 2 0 1 0 1 0 0 1 1 0 2 2 0 0 0 2 3 0 4 0 1 2 1 0 0 0 0 1 2 4 1 1 1 1 0
## [593] 0 2 1 0 3 2 2 2 0 0 1 3 1 1 0 1 1 1 1 1 0 1 1 2 3 1 0 0 0 1 1 0 2 0 2 0 0
## [630] 2 0 1 2 1 1 1 2 0 5 1 2 1 1 2 1 0 1 0 3 0 2 1 0 1 1 1 1 0 1 1 1 1 3 2 0 1
## [667] 3 0 0 1 1 3 3 0 0 1 0 1 0 1 2 0 2 1 1 1 0 2 0 0 1 2 2 0 0 1 1 1 1 0 1 1 1
## [704] 1 2 1 1 1 0 2 2 2 0 0 1 0 1 2 2 2 2 1 1 2 0 0 0 0 2 2 0 1 1 1 0 0 1 2 1 1
## [741] 1 0 0 0 2 1 1 0 4 0 1 2 0 0 1 2 2 1 0 3 1 1 1 0 2 1 2 0 1 1 1 3 0 3 1 0 3
## [778] 1 1 1 5 2 2 1 0 2 0 2 0 2 0 1 0 3 1 3 0 2 0 0 0 2 4 1 0 0 0 1 2 1 0 0 4 3
## [815] 2 1 0 1 0 1 1 1 1 0 3 1 2 1 2 1 0 2 0 1 1 0 2 1 1 0 2 0 3 1 2 0 0 1 0 2 0
## [852] 0 1 2 0 1 3 0 0 0 1 3 0 2 0 1 1 0 1 1 0 0 2 0 1 0 1 2 1 1 2 1 1 0 0 0 2 2
## [889] 0 0 1 0 0 1 0 2 3 0 0 0 0 0 1 1 1 0 0 2 0 0 1 1 1 4 2 2 0 2 2 0 2 0 2 1 2
## [926] 0 1 3 2 0 0 2 1 0 2 2 0 0 1 1 0 1 1 1 0 1 1 0 2 2 1 1 0 1 0 1 1 1 0 2 1 1
## [963] 0 1 4 0 0 0 0 0 0 1 2 0 1 1 1 0 0 0 1 2 2 2 0 0 1 2 1 1 2 1 0 0 4 0 1 1 1
## [1000] 0
Se generó 1000 números con la distribución de Poisson en “T”
A continuación se mostrará un Gráfico de barras desde los datos obtenidos de “T”:
hist(T, main = "Histograma de Poisson")
mean(T)
## [1] 1.005
La media de “T” es de 0.994
var(T)
## [1] 0.9479229
La varianza de “T” es de 0.9048689
Los datos obtenidos no se parecen a los datos teóricos.