Introduccion a la probabilidad
probabilidad es el lenguaje matematico para cuantificar la incertidubre Wasserman
- Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
- Interpretacion frecuentista de la probabilidad.
- Probabilidad condicional y su relacion con la independencia.
Espacio de resultados y eventos
El Espacio de resultados \(\omega\) es el resultado de un experimento aleatorio
e.g. si lanzamos una moneda dos veces: \[\Omega=\{AA,AS,SA,SS} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayusculas. e.g. Que el primer lanzamiento resulte aguila.
\[A=\{AA,AS\}\] ##Eventos equiprobables La probabilidad se puede ver como una extension de la idea de proporcion, o cociente de una parte con respecto con un todo
e.g. En la carrera de Ing. quimica hay 300 hombres y 700 mujeres, la proporcion de hombres es:
\[\frac{300}{700+300}=0.3 \]
\[ P(A)=\frac{\#(A)}{\#(\Omega)}\]
e.g. combinaciones Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres, si la seleccion es aleatoria, ¿Cual es la probabilidad de que el comite este conformado por 3 hombres y 2 mujeres?
Hay\(\dbinom{15}{15}\)posibles comites, cada uno tiene la misma posibilidad
Por otra parte hay \(\dbinom{6}{3}\dbinom{9}{2}\) posibles comites que incluyen 3 hombres y 2 mujeres, por lo tanto la prob. seria \[ \frac{\dbinom{6}{3}\dbinom{9}{2}}{\dbinom{15}{5}}\] y la funcion para calcular las combinaciones es choose(n,r)
choose(6,3)*choose(9,2)/choose(15,5)## [1] 0.2397602
interpretacion frecuentista de la probabilidad
lanzamientos_10=sample(c("A","S"),10,replace=TRUE)
lanzamientos_10## [1] "S" "A" "S" "S" "S" "A" "A" "S" "A" "A"
podemos calcular las secuencia de frecuencias relativas de aguila
cumsum(lanzamientos_10=="A")## [1] 0 1 1 1 1 2 3 3 4 5
dividiendo
round(cumsum(lanzamientos_10="A")/1:10,2)## Warning: NAs introducidos por coerción
## [1] NA NA NA NA NA NA NA NA NA NA
Distribuciones de probabilidad
** Funciones en R
En R, cada distribucion de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:
- Distribucion Alias
- Distribucion binomial binom
- Distribucion de Poisson pois
- Distribucion normal norm
- Distribucion expotencial exp
- Distribucion t de student t
- Distribucion ch12 chisq
- Distribucion F f
\[ \begin{Array}{1|1|1|c} \text{funtion} & \text{Significado} & \text{Uso}& \text{Observacion}\\ \hline p & \text{Probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Solo uso de grafico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios segun una distribucion especifica} & \text{---}\\ \hline \end{array} \] Distribucion expotencial
curve(dexp(x),from=0,to=10)#Representa la densidad de una expotencial de media 1 entre 0 y 10Distribucion binomial
x=rbinom(20,1,0.5)
x## [1] 0 0 1 1 0 1 0 1 1 0 0 0 0 1 0 0 1 0 1 1
Genera 20 observaciones con distribucion B(1,0.5)
Contando exitos vs fracasos
table(x)## x
## 0 1
## 11 9
e.g. Distribucion normal
si \(X\) es una variable aleatoria, con distribucion normal de media 3, y su desviacion tipica es de .5, la probailidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma
pnorm(3.5,mean = 3,sd=0.5)## [1] 0.8413447
- para calcular cuantil 0.7 es una v.a. normal estandar Z, es decir, un valor X tal que
qnorm(0.7)## [1] 0.5244005
- calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT .5
qnorm(0.7,sd=0.5)## [1] 0.2622003
El valor \(\(z_\alpha\)\) Que aparece en muchas de las formulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). algunos ejemplos
qnorm(0.975)## [1] 1.959964
- Para genetar una muestra de tamaño 100 de una poblacion normal de media 10 y desviacion tipica de 1 (y guardarla en un vector x):
x=rnorm(100,mean = 10,sd=1)
x## [1] 9.073155 8.395869 8.521269 9.232815 8.840233 10.644992 9.298602
## [8] 10.225085 11.511107 8.747541 10.302548 9.520147 11.829779 10.582280
## [15] 8.953728 11.197867 8.449319 8.931787 11.620970 9.798054 10.347855
## [22] 10.583129 8.915145 9.467636 10.295895 10.319301 10.135714 9.481779
## [29] 9.894276 10.731079 9.425148 9.824173 9.324059 9.787054 10.906059
## [36] 10.981661 9.297909 12.330245 9.681637 12.367705 9.841300 10.130214
## [43] 9.597137 10.166441 8.966093 9.966053 8.708535 8.722892 10.589087
## [50] 8.697518 10.627355 10.531715 10.585250 9.964435 7.485424 9.656448
## [57] 9.895647 10.078603 10.018898 10.391923 9.497468 9.679413 10.411723
## [64] 9.106181 10.884302 11.287205 9.978011 9.856137 8.398024 11.075675
## [71] 10.338037 11.535705 10.432933 10.678311 11.192453 9.436241 10.981154
## [78] 10.594348 9.785257 10.455391 9.922144 10.430036 9.756752 9.767776
## [85] 12.068179 8.078627 11.100953 8.905559 11.441208 10.017211 7.932993
## [92] 9.022873 8.860499 8.985059 11.023433 9.569750 8.051009 10.915397
## [99] 9.084650 9.953075
- para estimar el promedio de x
mean(x)## [1] 9.948867
- Histograma de frecuencias
hist(x)- Grafico de cajas y bigote
boxplot(x)- Histograma de la muestra (normalizado para que la suma de las areas de los rectangulos sea
- jutno con la densidad de la poblacion:
hist(x,freq = FALSE,)
curve(dnorm(x,mean=10,sd=1),from =7,to=13,add = TRUE) 1. Si \(z\) es una variable con distribucion normal estandar, calcula \(\mathbb{P}(-2.32< Z < 4.78)\).
P = (pnorm(4.78, mean = 0, sd = 1) - pnorm( -2.34, mean = 0, sd = 1))
P ## [1] 0.9903573
- Calcula el rango intercuartulico de una poblacion estandar.
poblacion = c(1,1,4,4,5,5,6,6,6,6,7,8,8,9)
summary(poblacion)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 4.250 6.000 5.429 6.750 9.000
- Genera una muestra de tamaño 10 de población normal estándar. ¿Cuál es la diferencia entre la media mustral y la poblacional? repite el ejercicio 3 veces y anota las 3 diferencias
a = rnorm(10, mean=5, sd=1)
a## [1] 5.504320 4.650295 5.251503 5.644234 6.422341 4.681873 5.531223 5.026208
## [9] 3.150069 4.182161
[1] 4.955513 3.938152 4.778324 5.394592 5.889427 5.868717 4.327958 4.765425 5.872793 5.913336
[1] 5.397229 4.903014 2.920119 6.373958 5.106814 4.973496 4.766356 4.418837 4.354325 4.657123
[1] 3.325271 6.861188 4.944379 5.433406 5.510374 6.195907 3.916096 3.854895 5.155219 4.507749
- Genera 1000 números con distribución de Poisson de parámetro \(\lambda=1\). Representa el gráfico de barras de los numeros obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
pois = rpois(1000, 1)
pois## [1] 1 0 0 1 0 0 1 1 0 1 2 0 1 0 0 3 2 0 1 0 1 0 1 2 0 3 0 1 2 1 1 1 0 0 2 2 1
## [38] 1 0 2 0 0 0 0 0 0 1 0 0 1 1 0 0 1 1 2 0 0 0 0 2 1 1 0 0 0 1 1 1 0 1 1 1 0
## [75] 2 1 0 0 2 0 1 0 0 1 1 0 1 0 3 1 1 1 1 2 3 0 4 2 1 2 2 1 1 1 4 0 1 1 0 0 0
## [112] 2 1 1 2 0 1 1 0 2 0 3 0 0 0 3 0 2 0 1 2 1 0 1 2 2 0 1 1 0 0 1 1 2 2 7 0 0
## [149] 1 0 0 2 0 1 1 1 2 1 0 2 1 1 1 2 1 3 2 1 0 2 1 3 2 2 0 3 1 1 0 1 2 1 0 2 1
## [186] 0 1 0 1 1 2 0 0 3 1 2 0 1 0 3 2 3 1 0 3 0 0 1 2 1 1 1 1 0 0 0 1 2 1 1 0 3
## [223] 2 1 2 1 0 1 3 0 2 0 2 1 2 0 1 1 0 2 2 2 0 0 1 0 0 0 2 0 1 1 1 2 2 0 1 0 0
## [260] 0 2 1 1 4 2 1 0 1 0 0 1 0 1 0 0 0 0 2 0 1 1 0 0 1 0 0 0 0 2 0 3 0 1 0 2 1
## [297] 2 0 0 1 0 2 1 0 0 0 0 3 0 2 0 2 1 1 1 0 0 1 0 0 0 1 0 3 0 1 2 1 2 1 0 2 0
## [334] 2 1 1 0 1 2 1 1 1 1 1 1 2 0 2 2 1 1 0 3 0 0 1 1 0 1 1 0 0 2 1 0 1 1 2 0 0
## [371] 0 0 3 1 1 1 1 1 1 0 1 1 0 0 2 1 2 0 0 1 0 2 0 1 0 2 4 1 1 0 0 1 2 1 1 3 2
## [408] 0 1 1 1 1 0 2 3 0 1 1 1 0 0 1 0 0 0 2 2 0 0 1 1 0 2 1 2 1 0 1 1 1 1 2 1 0
## [445] 2 1 1 0 0 3 2 2 0 1 1 1 1 1 1 2 0 0 0 1 0 0 1 3 2 3 2 0 1 0 1 1 0 3 0 0 1
## [482] 0 0 1 1 2 0 0 0 0 2 1 0 1 1 1 1 0 0 0 1 3 1 0 0 1 0 0 2 1 0 0 2 0 2 1 0 1
## [519] 1 1 1 2 1 0 2 1 2 1 3 2 1 0 0 0 1 0 0 2 2 0 0 0 0 0 1 2 0 2 1 0 4 0 1 3 1
## [556] 0 3 0 3 3 1 3 1 1 0 2 0 0 0 0 4 2 1 1 2 1 1 2 0 3 0 0 0 0 2 1 1 0 0 0 1 1
## [593] 0 0 0 2 1 0 2 1 0 2 2 4 1 1 0 0 2 3 3 1 3 1 0 1 3 0 0 0 1 0 1 0 0 1 0 0 0
## [630] 1 2 3 0 0 0 0 2 1 1 2 1 0 1 1 0 0 1 0 0 3 0 1 0 1 1 1 0 0 0 0 1 2 1 1 0 2
## [667] 1 2 2 0 0 0 0 2 0 1 0 0 0 0 1 3 1 0 1 0 0 1 0 1 0 0 3 2 0 4 2 0 1 1 2 2 0
## [704] 2 2 2 0 0 0 2 0 2 0 0 2 1 0 1 1 1 0 2 2 1 0 0 0 1 0 0 0 1 0 0 2 1 1 1 1 1
## [741] 3 3 1 1 1 0 0 3 1 2 1 0 3 1 0 0 0 3 1 1 1 0 2 2 1 1 0 1 1 0 1 0 0 1 0 1 2
## [778] 0 0 1 1 0 2 4 0 0 3 1 0 0 2 2 1 0 1 0 0 3 1 2 0 2 0 1 5 1 1 0 1 0 0 1 1 1
## [815] 1 1 3 1 1 1 0 1 1 0 2 2 1 0 0 1 1 0 1 0 1 2 2 0 1 1 0 1 2 0 0 3 2 1 2 0 1
## [852] 0 0 0 1 0 0 1 1 1 1 2 0 2 2 1 2 0 3 0 1 0 2 0 1 1 3 0 2 1 1 0 2 0 1 1 1 0
## [889] 2 1 0 1 0 1 0 0 1 0 0 0 0 1 0 1 1 0 1 0 1 1 0 1 2 0 1 0 1 0 1 1 1 2 0 0 3
## [926] 1 1 0 2 3 1 1 0 1 0 1 0 1 1 1 2 3 1 1 0 2 0 1 0 0 1 3 1 0 1 1 0 0 1 2 1 1
## [963] 0 2 1 0 1 0 2 1 2 2 1 2 3 1 1 0 0 2 0 2 3 0 2 2 2 2 0 0 1 0 0 1 3 0 2 0 0
## [1000] 0
mean(pois)## [1] 0.939
var(pois)## [1] 0.9342132
hist(pois)