“Probabilidad es el lenguaje matemático para cuantificar incertidumbre.” -Wasserman
Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuentista de probabilidad.
Probabilidad condicional y su relación con independencia.
La regla de Bayes.
El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.
Ejemplo: Si lanzamos una moneda dos veces entonces:
\[ \Omega = \{AA, AS, SA, SS \} \] Escribe el espacio muestral de los siguientes experimentos aleatorios:
El número de lanzamientos de un dado hasta que obtienes un 6. \[ \Omega = \{1,2,3,4,5,6\} \]
Tu calificación final en el curso. \[ \Omega = \{1,2,3,5,6,7,8,9,10\}\]
El tiempo en minutos hasta tu próximo estornudo. \[ \Omega = \{1,2,3 \} \]
El peso de una lata de Coca-Cola (incluyendo el líquido). \[ \Omega = \{350,360,370,380 \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.
El evento: que el primer lanzamiento resulte águila es
\[ A = \{AA, AS\} \]>
Eventos Equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo. Si en la carrera de química tenemos:
la proporción de hombres es:
\[ \frac{300}{700+300}=0.3\ \]
Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.
En el ejemplo hay un supuesto implícito en elegir al azar (o aleatoria mente), en este caso estamos suponiendo que todos los estudiantes tienen la misma probabilidad de ser elegidos, que nos lleva al siguiente concepto:
Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]
Por lo que solo hace falta contar.
e.g. La probabilidad de obtener AA si lanzamos una moneda 2 veces es de 1/4 que también es 0.25 ó 25%, y la probabilidad del evento que el primer lanzamiento resulte águila es de 2/4 = 0.5 ó 50%
Ejemplo: combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
la función para calcular las combinaciones en R (random) es choose(n, r)
choose (6, 3) * choose(9, 2) / choose (15, 5)
Las probabilidades se entienden como una aproximación matemática de frecuencias relativas cuando la frecuencia total tiende a infinito.
supongamos que lanzamos una moneda 10 veces y obtenemos:
lanzamientos_10 <- sample(c("A", "S"),10, replace=TRUE)
#para calcular la secuencia de frecuencias relativas de águila
cumsum(lanzamientos_10 == "A") #suma acumulada de águilas
## [1] 0 1 2 3 4 4 4 5 6 7
round(cumsum(lanzamientos_10 == "A") / 1:10, 2 )
## [1] 0.00 0.50 0.67 0.75 0.80 0.67 0.57 0.62 0.67 0.70
plot(cars)
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
Aquí tenemos la gráfica de los carros:
v.a. normal estándar \(Z\), es decir, un valor \(x\) tal que \(\mathbb{P}(Z\leq x) = 0.7\)):
DATA606::normalPlot(mean = 0, sd = 1, bounds = c(-0.4, 1.5), tails = FALSE)
##Distribuciones de probabilidad
**Funciones en R
En R, cada distribucion de probabilidad se nombre mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] **Distribucion EXponencial
curve(dexp(x), from=0, to=10)
#reprensenta la densidad de una exponencial de media 1 entre 0 y 10.
Distribucion binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 0 0 1 0 0 0 0 0 1 1 0 1 0 1 0 0 1 0 0 0
#Genera 20 observaciones con distribucion B(1,0.5)
Contando exitos vs fracasos
table(x)
## x
## 0 1
## 14 6
eg distribucion normal si \(x\) es una variable aleatoria, con distribucion normal de media 3, y su desviacion tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
*Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1 )
mean(x)
## [1] 9.867358
*Histograma de frecuencias
hist(x)
* Gráfico de cajas y bigote
boxplot(x)
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
Ejercicios
P= pnorm(4.78, mean = 0, sd = 1) - pnorm(−2.34, mean = 0, sd = 1)
P
## [1] 0.9903573
#aqui vemos que calculo la media de los rangos de los numero de -2.4 a 4.78
f <- c(2,3,3,3,4,4,5,5,5,6,6,7,8,8,8,8,9,9,9,10,10,10)
summary(f)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.000 4.250 6.500 6.455 8.750 10.000
#aqui practicamente lo que sacarte el numero mas o menos, el mas alto, y los medianos, aproximadamente en la posicion 50%
A <- rnorm(10, mean=5, sd=1 )
A
## [1] 4.128899 4.388461 3.703268 5.503986 5.317469 3.320995 4.963990 4.417064
## [9] 6.289184 6.526249
B <- rnorm(10, mean=5, sd=1 )
B
## [1] 6.624749 4.141917 6.058619 5.823064 4.617685 5.744814 4.804650 4.152078
## [9] 5.166192 4.898051
C <- rnorm(10, mean=5, sd=1 )
C
## [1] 4.794769 3.074985 4.569270 5.472170 5.349805 5.809390 3.622172 5.314259
## [9] 5.011966 5.287867
## La media poblacional toda la totalidad de los datos para realizar la estimación, mientras que la media muestra se basa en una muestra significativa de esa población.
##
##1. son numeros distintos
##2. tiene diferente media
##3. diferente orden
4.Genera 1000 números con distribución de Poisson de parámetro \(\lambda=1\) . Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
poison <- rpois(1000, 1)
poison
## [1] 2 0 0 1 3 2 0 0 1 1 0 1 0 1 0 1 0 0 0 1 2 1 1 1 1 0 1 0 0 1 2 0 0 2 1 0 1
## [38] 2 2 2 1 0 0 0 3 1 2 0 0 1 1 1 0 2 1 0 0 1 1 0 0 1 1 2 2 0 2 0 2 0 2 0 0 0
## [75] 1 2 0 0 3 2 0 1 0 1 0 1 2 0 0 0 0 1 0 1 0 2 1 0 0 1 1 0 2 2 1 1 0 1 1 0 1
## [112] 0 0 2 3 1 1 2 1 1 0 0 1 0 0 0 1 1 0 0 3 0 0 0 0 0 0 2 0 0 1 0 3 2 2 1 1 2
## [149] 0 2 1 0 0 4 1 1 2 1 1 0 0 0 1 0 2 1 0 1 1 1 1 0 1 1 1 1 1 0 0 0 0 0 1 0 0
## [186] 0 1 1 1 0 1 1 0 0 0 0 0 3 0 0 0 0 3 0 1 1 1 3 3 0 1 2 1 2 0 0 3 2 1 1 1 1
## [223] 1 0 0 0 1 1 1 0 1 3 1 2 1 3 0 2 1 3 1 0 1 2 1 0 2 0 1 0 0 1 0 2 0 2 1 0 1
## [260] 2 1 2 1 2 0 1 0 0 0 3 1 1 0 0 1 3 0 1 2 1 0 0 1 1 1 1 0 0 0 0 1 0 0 0 2 2
## [297] 3 2 1 0 5 0 1 0 2 0 1 0 1 1 1 2 3 0 0 0 0 3 4 1 0 0 0 0 3 2 1 1 0 1 2 1 1
## [334] 0 1 0 1 1 1 2 0 0 0 0 0 0 0 0 1 0 2 1 3 1 1 3 1 2 2 1 0 1 1 0 0 2 3 1 2 1
## [371] 1 3 1 1 4 0 1 1 1 1 1 2 3 2 1 3 2 1 0 1 3 1 0 2 1 1 0 1 0 1 2 0 2 1 0 4 1
## [408] 4 1 0 2 0 0 1 1 1 2 2 1 0 0 0 1 1 0 1 1 1 0 0 1 2 1 0 2 2 1 0 0 2 0 0 1 1
## [445] 0 2 1 1 3 0 2 1 1 1 1 2 1 2 0 1 1 1 1 0 3 0 2 1 1 1 2 3 1 0 1 1 1 1 1 0 0
## [482] 0 2 2 1 1 0 0 0 0 1 2 1 1 1 0 1 0 1 1 0 3 2 1 1 0 1 1 0 0 0 1 2 1 0 1 2 0
## [519] 0 2 3 2 0 0 1 2 2 3 0 0 0 0 0 1 0 1 3 0 0 2 1 1 0 0 1 2 0 1 0 0 0 0 1 0 1
## [556] 1 3 2 0 0 1 0 1 0 0 1 0 3 1 0 0 0 2 0 2 2 1 0 0 1 1 1 1 1 0 1 2 1 2 1 0 1
## [593] 1 1 0 0 0 2 1 1 0 1 2 1 0 0 1 0 2 0 2 1 1 1 2 0 3 0 0 3 3 1 0 1 0 0 1 0 2
## [630] 0 0 0 1 1 1 2 2 1 3 1 1 2 1 2 2 0 0 0 1 3 0 1 1 1 3 0 3 2 0 0 3 2 0 1 3 3
## [667] 0 2 1 3 1 2 1 1 2 0 0 1 3 0 2 1 2 1 1 0 0 1 0 0 3 3 1 0 2 0 2 1 1 1 0 0 0
## [704] 1 1 2 0 0 1 0 2 1 0 1 1 1 0 0 4 1 2 0 0 0 0 0 0 1 1 0 2 0 1 2 0 0 0 1 1 0
## [741] 2 0 1 2 0 0 2 2 2 2 1 0 3 1 1 1 1 2 2 1 1 0 3 0 0 1 0 0 1 1 1 1 1 0 2 2 1
## [778] 0 0 2 2 3 0 2 3 0 1 0 0 4 3 2 2 2 0 0 0 0 0 0 2 1 2 0 2 2 1 1 0 0 1 0 0 2
## [815] 2 0 0 0 1 0 0 0 2 4 1 2 3 1 3 0 3 2 0 2 2 1 1 1 0 1 0 1 1 3 3 1 2 0 0 2 0
## [852] 0 1 0 0 2 2 0 0 2 0 0 1 0 3 1 0 1 1 1 3 1 4 0 1 0 0 0 1 0 0 1 2 1 1 0 0 0
## [889] 2 4 0 1 1 0 3 0 1 1 2 1 0 0 1 0 0 0 1 1 0 1 2 2 0 0 0 3 0 1 0 0 0 0 1 2 1
## [926] 1 1 1 1 0 0 1 2 0 0 0 1 1 0 0 1 0 0 0 2 2 1 0 1 4 0 2 1 0 1 2 2 0 1 1 1 2
## [963] 0 0 1 3 0 1 2 0 3 0 0 1 1 1 1 2 2 0 1 1 1 0 1 1 2 0 2 1 1 1 1 2 1 1 0 2 1
## [1000] 0
mean(poison) #calculo de la media
## [1] 0.952
var(poison) #calcula la varianza
## [1] 0.9346306
hist(poison, xlab = "Distribucion de Poisson", ylab = "Frecuencia", main = paste("Histograma de Poisson"), border = (color = "black") )
SE muestran los datos obtenidos acomodando de menor a mayor que numeros tuvieron mayor repeticion