Introducción a la probabilidad
Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. Wasserman
- Terminologia de probablidad: espacio de resultados, eventos, funciones de probabilidad, Etc.
- Interpretacion frecuencista de la probabilidad.
- Probabilidad condicional y su relacion con la independencia
Espacio de resultados y eventos
El espacio de resultados \(\Omega\) es el conjunto de resultados d eun experimento aleatorio.
e.g. Si lanzamos una modeda dos veces entonces:
\[ \Omega = \{AA,AS,SA,SS\} \]
Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayusculas.
e.g. Que el primer lanzamiento resulte aguila.
\[ A=\{AA,AS\} \]
Eventos equiprobables
La probabilidad se puede ver como una extension de la idea de proporcion, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Quimica hay 300 estudiantes hombres y 700 Mujeres, la proporcion de hombres es:
\[ \frac{300}{700+300} = 0.3\] Eventos equiprobables Si todos los elementos del espacio de resultados tienen la misma oportunidad de ser elegidos entonces A es el numero de resultados en A dividido entre el numero posible de resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que hace falta.
Ejemplo. Combinaciones.
Un comité de 5 personas sera eleccionado de un grupo de 6 hombres y 9 mujeres. si la seleccion es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comites, cada uno tiene la misma probabilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
y la funcion para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602
Interpretación frecuentista de la probabilidad
Una frecuencia relativa es una proporcion qur mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesion de observaciones.
<- sample(c("A","S"),10, replace = TRUE)
lanzamiento_10 lanzamiento_10
## [1] "S" "A" "A" "S" "S" "S" "S" "S" "S" "S"
Podemos calcula la secuencia de frecuencias relativas de aguilas:
cumsum(lanzamiento_10 == "A") # Suma acumulada de aguilas
## [1] 0 1 2 2 2 2 2 2 2 2
Dividiendo
round(cumsum(lanzamiento_10 == "A")/ 1:10, 2)
## [1] 0.00 0.50 0.67 0.50 0.40 0.33 0.29 0.25 0.22 0.20
Distribución de probabilidad
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:
- Distribución Alias
- Distribución binomial binom
- Distribución de Poisson pois
- Distribución normal norm
- Distribución exponencial exp
- Distribución t de Student t
- Distribución Chi2 chisq
- Distribución F f
\[ \begin{array}{l|l|l|c} \text{funcion} & \text{Significado} & \text{Uso}& \text {observacíon}\\ \hline p & \text{probability} & \text{Calcula posibilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula posibilidades puntuales} & \text{Solo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios segun una distribucion especifica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial
curve(dexp(x), from=0, to=10)
#Representa la densidad de una exponencial de media 1 entre 0 y 10
Distribución Binomial
<- rbinom(20, 1, 0.5)
x x
## [1] 1 0 0 1 1 0 1 0 1 1 0 1 1 0 0 0 0 0 1 0
#Genera 20 observaciones con distribución (1,0,5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 11 9
e.g. Distribución Normal
Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que x sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
- Para calcular el cuantil 0.7 de una v.a normal estandar Z, es decir, un valor x tal que
qnorm(0.7)
## [1] 0.5244005
- Para calcular el mismo cuantil, pero para con v.a normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las formulas para intervalos y constrastes se obtiene con el comado qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
- Para generar una muestra de tamaño 100 de una poblacion normal de media 10 y desviacion tipica 1 (y guardarla en un vector x):
<- rnorm(100, mean=10, sd=1)
x x
## [1] 8.211760 10.047283 8.700140 9.637823 9.487782 9.386042 10.549683
## [8] 9.550123 8.970471 9.790755 9.498119 10.625602 11.481649 10.737334
## [15] 6.584043 8.883108 10.665051 9.671521 9.759509 9.291118 9.468068
## [22] 9.147205 11.935515 8.554200 10.954752 10.701051 8.630455 11.474867
## [29] 8.203138 10.528723 9.859544 11.699183 9.048431 10.763294 11.119461
## [36] 9.566694 9.556619 8.414219 8.614010 9.705212 10.130450 8.758716
## [43] 9.353535 10.618365 8.861136 9.198515 9.113044 9.877315 9.043932
## [50] 9.753816 12.109939 9.806906 9.948351 11.294748 10.019245 9.062289
## [57] 10.729770 11.404282 8.881711 10.975941 9.763649 10.180506 10.432900
## [64] 9.136450 10.304172 8.901307 9.754529 7.807338 9.672051 9.450491
## [71] 10.089942 9.867781 9.552498 10.475331 9.264867 8.883089 11.248318
## [78] 12.281769 9.621775 9.154042 9.047194 9.525389 10.592825 9.764819
## [85] 9.644233 9.840072 8.905941 11.255835 9.070280 10.066510 10.440283
## [92] 11.277647 10.329088 11.840397 8.733495 9.797527 10.268221 10.739692
## [99] 10.437888 9.822774
- Para estimar el promedio de x
mean(x)
## [1] 9.856585
Histograma de frecuencias
hist(x)
- Grafico de cajas y bigote
boxplot(x)
- Histograma de la muestra (normalizado para que la suma de las areas de los rectangulos sea 1) junto con la densidad de la poblacion.
hist(x, freq=FALSE) #Freq= FALSE, para que el area del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add= TRUE)
Ejercicios.
- Si \(z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < z < 4.78)\).
= (pnorm(4.78, mean = 0, sd = 1) - pnorm( −2.34, mean = 0, sd = 1))
P P
## [1] 0.9903573
- Calcula el rango intercuartílico de una poblacion normal estándar
<- c(1,1,4,4,5,5,6,6,6,6,7,8,8,9)
pob summary(pob)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 4.250 6.000 5.429 6.750 9.000
- Genera una muestra de tamaño 10 de población normal estándar. ¿Cuál es la diferencia entre la media mustral y la poblacional? repite el ejercicio 3 veces y anota las 3 diferencias.
= rnorm(10, mean=5, sd=1)
a a
## [1] 5.778431 5.608268 4.004243 5.861642 4.707797 5.344924 4.696434 4.952133
## [9] 4.871753 4.527068
- Genera 1000 números con distribución de Poisson de parámetro \(\lambda =1\). Representa el gráfico de barras de los numeros obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
<- rpois(1000, 1)
Poiss Poiss
## [1] 3 2 1 1 0 1 3 0 1 1 1 0 1 2 1 2 1 1 0 0 0 3 0 2 0 2 1 1 1 1 0 1 0 0 1 1 0
## [38] 0 1 0 2 0 1 1 1 0 2 2 2 2 1 1 0 0 2 0 3 0 3 1 2 2 2 0 2 1 0 1 0 1 1 0 0 0
## [75] 0 0 0 0 0 0 0 1 1 3 2 2 1 1 1 2 0 2 0 0 1 0 2 0 0 2 2 0 4 0 1 2 1 0 1 1 1
## [112] 2 0 1 0 0 1 0 2 0 1 1 0 2 2 1 0 2 1 0 0 1 0 2 2 1 2 1 0 0 0 2 0 0 0 2 2 0
## [149] 1 0 0 5 1 1 0 0 1 1 0 0 0 0 0 1 1 0 3 2 1 2 0 1 0 0 1 0 0 3 1 1 2 1 1 2 0
## [186] 0 2 0 1 2 0 2 2 1 0 1 1 1 1 1 2 1 1 2 1 1 3 0 1 1 0 2 1 0 0 2 2 2 1 2 0 0
## [223] 1 0 0 0 0 1 0 1 0 0 0 0 2 0 0 1 2 1 1 1 1 0 1 1 1 0 1 2 3 1 1 1 3 2 2 3 0
## [260] 4 1 1 1 0 0 1 1 0 1 3 0 2 0 2 0 0 0 0 1 1 0 0 0 2 0 1 0 1 0 1 4 0 0 0 0 1
## [297] 1 2 1 0 3 0 1 0 0 1 1 1 1 1 2 1 0 0 0 1 1 2 3 0 1 1 1 0 2 0 3 0 0 1 0 1 1
## [334] 0 2 2 0 0 1 0 1 1 0 2 1 2 1 3 1 0 3 0 1 0 0 3 1 1 1 1 1 0 3 1 1 1 2 1 0 1
## [371] 0 2 0 0 0 4 1 0 0 2 0 0 2 0 1 1 1 0 0 2 1 2 0 2 1 1 2 0 1 2 1 4 1 0 2 1 0
## [408] 0 0 6 0 2 1 1 2 1 2 1 1 2 2 1 3 0 1 2 1 1 1 2 1 0 1 0 1 1 1 0 0 0 2 1 1 0
## [445] 0 0 2 2 1 3 2 0 0 0 1 0 1 0 1 1 0 1 3 1 0 1 0 1 0 0 1 0 1 2 0 2 3 0 1 1 1
## [482] 0 0 1 1 1 1 2 1 0 0 0 2 0 1 0 0 1 0 4 1 3 2 0 4 2 1 1 0 1 1 1 0 0 1 0 0 2
## [519] 0 0 2 1 1 1 0 1 2 0 0 1 1 0 3 1 2 2 1 1 1 3 0 1 0 0 2 1 1 3 1 1 0 1 0 1 2
## [556] 1 1 0 0 0 4 0 2 3 0 1 1 1 0 1 2 0 1 0 0 0 1 0 0 0 0 0 1 3 0 1 1 0 1 0 0 1
## [593] 1 2 1 1 4 1 0 0 0 3 1 1 1 0 0 0 1 0 1 4 1 1 1 0 1 0 1 0 3 0 0 1 2 0 0 1 1
## [630] 1 0 0 4 0 0 0 2 4 3 2 1 2 2 1 5 2 0 0 1 1 1 0 3 0 0 2 2 0 1 2 1 0 1 1 2 1
## [667] 2 3 0 2 2 0 0 0 1 1 0 1 1 0 0 3 4 3 0 1 1 0 5 1 1 2 1 1 3 0 2 2 1 1 0 1 0
## [704] 0 1 3 0 0 0 0 5 0 0 0 2 2 2 2 0 0 1 1 0 1 0 0 0 0 2 1 0 1 0 0 1 3 1 0 0 3
## [741] 1 0 1 0 1 4 1 0 0 1 0 2 1 0 1 1 1 0 0 0 0 2 1 3 2 0 2 1 1 0 1 2 1 1 1 2 2
## [778] 2 0 1 1 1 1 0 2 1 1 1 1 2 0 1 0 0 0 0 1 3 1 0 0 0 0 0 0 1 0 0 1 1 0 1 3 0
## [815] 1 2 1 1 1 0 2 2 3 2 3 0 4 1 0 0 1 1 1 0 2 0 1 2 2 2 0 2 2 0 1 1 3 2 1 0 1
## [852] 0 2 1 1 2 2 0 1 0 1 1 1 1 0 1 0 3 0 0 0 0 3 1 0 4 2 3 2 0 1 2 1 0 1 1 3 2
## [889] 0 0 1 1 1 3 2 0 2 0 1 1 1 1 0 1 2 0 3 0 1 0 3 1 4 1 1 1 1 2 0 0 5 1 0 0 0
## [926] 0 2 1 2 0 2 0 0 1 0 0 0 1 4 1 0 0 1 0 1 0 0 1 0 1 0 1 1 2 1 2 0 0 0 1 1 0
## [963] 0 2 2 3 0 1 0 1 0 4 1 2 0 4 1 3 0 2 0 1 4 1 0 0 1 2 1 0 1 0 1 1 0 1 1 0 1
## [1000] 2
- Media
mean(Poiss)
## [1] 0.987
- Varianza
var(Poiss)
## [1] 1.063895
- Histograma
hist(Poiss, xlab = "Distribucion de Poisson", main = paste("Histograma de Poisson"))
- Calcula con R los siguientes valores: \(t_{3,\alpha}\),\(chi^2_{3,\alpha}\), \(\alpha= 0.05\), y \(\alpha= 0.01\). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.
Conclusion Viendo la forma que avanza el tema es sorprenderte llegar a ver la magia de los numeros, ya que, al lograr diminar estas fuerzas es posible llegar a ver diversos resultados de experimentos ya sea por medio de graficas, esto dando el apoyo de saber como se comportan los resultados y asi poder tener una mejor resolucion de la problematica.