Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. Wasserman
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayusculas.
e.g. Que el primer lanzamiento resulte aguila.
\[ A=\{AA, AS\} \]
La probabilidad se puede ver como una extension de la idea de proporcion o cociente de una parte respecto a un todo.
e.g. En la carrera de Ing. Quimica hay 300 estudiantes que son hombres y 700 que son mujeres, la proporcion de hombres es:
\[ \frac{300}{700+300} =0.3 \]
Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el numero de resultaos en A dividio entre el numero total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]
Por lo que solo hace falta contar.
e.g. Combinaciones
Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. Si la seleccion es aleatoria, ¿cual es la probabilidad de que el comite este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comites, cada uno tiene la misma posiblidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comites que incluyen 3 hombres y 2 mujeres, por lo tanto la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] Y la funcion para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602
Una frecuencia relativa es una proporcion que mide que tan seguido o frecuente ocurre una u otra cosa en una sucesion de observaciones.
lanzamiento_10 <- sample(c("A", "S"),10, replace = TRUE)
lanzamiento_10
## [1] "A" "S" "S" "A" "A" "A" "S" "S" "A" "A"
Podemos calcular las secuencia de frecuencia relarivas de aguila:
cumsum(lanzamiento_10 == "A") # suma acumulada de aguilas
## [1] 1 1 1 2 3 4 4 4 5 6
round(cumsum(lanzamiento_10 == "A") / 1:10, 2)
## [1] 1.00 0.50 0.33 0.50 0.60 0.67 0.57 0.50 0.56 0.60
**funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:
Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución Chi2 chisq Distribución F f
Distribucion Exponencial
curve(dexp(x), from=0, to=10)
#Representa la densidad de una exponencial de media 1 entre 0 y 10
** Distribucion binomial**
x <- rbinom(20, 1, 0.5)
x
## [1] 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 1 1 0 0 0
#Genera 20 observaciones con distribución B(1,0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 14 6
e.g. Distribución normal
si X es una variable aletoria, con distribución normal de media 3, y du desviación típica es de 0.5, la probabilidad de que X sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
*Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que
qnorm(0.7)
## [1] 0.5244005
*Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003
*El valor zα que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
*Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1 )
x
## [1] 9.648881 8.878664 7.978350 8.048696 7.650612 9.629225 9.554297
## [8] 10.355116 10.005944 8.646144 10.462526 10.095321 9.221382 9.593302
## [15] 9.366315 9.840798 11.588233 10.012933 9.971880 10.361563 11.597035
## [22] 8.899179 10.657297 10.379183 10.041253 8.477498 10.382836 10.025217
## [29] 10.539153 8.596162 10.680129 9.306358 9.292054 9.446666 10.496966
## [36] 11.267235 8.188889 10.535637 9.866015 10.169832 9.467252 9.986429
## [43] 9.437188 10.184364 10.319217 9.932902 9.726759 9.550437 9.588451
## [50] 9.435357 12.273597 10.588841 8.338592 10.623750 9.563596 10.969096
## [57] 8.937065 11.605160 12.226181 10.467886 11.227233 10.191553 10.396532
## [64] 11.481004 10.418103 9.315976 9.477098 9.735777 10.493924 10.059981
## [71] 9.955981 9.601807 10.917490 11.436161 9.777085 9.063622 12.483447
## [78] 9.640545 8.117179 10.860815 8.301711 10.525882 9.806371 12.585527
## [85] 9.153049 10.416697 12.317240 10.162107 12.479189 10.205719 9.569903
## [92] 10.058927 12.406045 9.468400 9.556230 9.941380 10.148413 9.406081
## [99] 8.723182 9.465798
*Para estimar el promedio de x
mean(x)
## [1] 10.02326
*Histograma de frecuencias
hist(x)
*Gráfico de cajas y bigote
boxplot(x)
*Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
Ejercicios
1.-Si Z es una variable con distribución normal estándar, calcula P(−2.34<Z<4.78).
2.-Calcula el rango intercuartílico de una población normal estándar.
3.-Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
4.-Genera 1000 números con distribución de Poisson de parámetro λ=1. Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?